[發(fā)明專利]面向新聞文本基于層級狀態(tài)神經(jīng)網(wǎng)絡(luò)的社會情緒排序方法在審
| 申請?zhí)枺?/td> | 202010102690.7 | 申請日: | 2020-02-19 |
| 公開(公告)號: | CN111339440A | 公開(公告)日: | 2020-06-26 |
| 發(fā)明(設(shè)計(jì))人: | 周德宇;張朦;楊揚(yáng) | 申請(專利權(quán))人: | 東南大學(xué) |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F40/211;G06N3/04 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 孟紅梅 |
| 地址: | 211102 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 新聞 文本 基于 層級 狀態(tài) 神經(jīng)網(wǎng)絡(luò) 社會 情緒 排序 方法 | ||
本發(fā)明公開了一種面向新聞文本基于層級狀態(tài)神經(jīng)網(wǎng)絡(luò)的社會情緒排序方法,關(guān)注文檔的語義層次結(jié)構(gòu)信息,處理社會情緒檢測中的相關(guān)情緒排序問題。本方法包括:對新聞文本進(jìn)行預(yù)處理;通過句子狀態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò),對詞編碼得到句子表示;通過文檔狀態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò),對句子編碼得到文檔表示;以文檔表示為基礎(chǔ),使用多層感知機(jī)進(jìn)行映射,softmax進(jìn)行歸一化處理,得到相關(guān)情緒的排序結(jié)果。本方法相比之前的相關(guān)情緒排序方法,在每個時(shí)間步同時(shí)對所有詞或句子的隱藏狀態(tài)進(jìn)行編碼,可以更好地捕獲長距離語義依賴。此外,采用層級結(jié)構(gòu)機(jī)制來捕獲文檔中關(guān)鍵的層級語義結(jié)構(gòu),動態(tài)突出了文檔中喚起情緒的重要部分,可以提升相關(guān)情緒排序的性能。
技術(shù)領(lǐng)域
本發(fā)明涉及利用計(jì)算機(jī)對文本進(jìn)行情緒檢測,具體涉及一種面向新聞文本的基于層級狀態(tài)神經(jīng)網(wǎng)絡(luò)的社會情緒排序方法,屬于機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域。
背景技術(shù)
文本情緒分析是對帶有情緒或者可能引發(fā)讀者情緒的文本進(jìn)行分析、處理、歸納和推理的過程。隨著互聯(lián)網(wǎng)的不斷發(fā)展,人們開始習(xí)慣于在網(wǎng)上發(fā)表觀點(diǎn)、想法和態(tài)度。了解人們的情緒狀態(tài)對一些應(yīng)用,如對話系統(tǒng)、推薦系統(tǒng)等,有著重要的實(shí)際意義。社會情緒檢測是指預(yù)測互聯(lián)網(wǎng)上的新聞文本在社會中引起的情緒反應(yīng),通常表示為情緒的分布。社會情緒檢測對輿情控制等有著重要的意義。由于在一個文檔中經(jīng)常會發(fā)現(xiàn)不同強(qiáng)度的多種情緒,所以社會情緒檢測也可以轉(zhuǎn)化為社會情緒排序問題。相關(guān)情緒排序問題是社會情緒排序中的一個子問題,即針對一個文檔來說,可以根據(jù)情緒的強(qiáng)度對情緒標(biāo)簽進(jìn)行排序,而所有的情緒標(biāo)簽可以被分為相關(guān)情緒和不相關(guān)情緒兩類,由于不相關(guān)的情緒的排序可能會是噪聲對模型帶來干擾,所以需要區(qū)分文檔的相關(guān)情緒和不相關(guān)情緒,并且僅考慮相關(guān)情緒的排序情況。然而,現(xiàn)有的相關(guān)情緒排序方法研究通常基于較淺的表示,例如不考慮詞序的詞袋模型,沒有充分利用文檔的語義結(jié)構(gòu)信息,在捕獲長距離依賴性方面存在困難。
發(fā)明內(nèi)容
發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供了一種面向新聞文本的基于層級狀態(tài)神經(jīng)網(wǎng)絡(luò)的社會情緒排序方法,能夠有效得到文檔中的長距離語義依賴和關(guān)鍵語義結(jié)構(gòu)信息。
技術(shù)方案:為實(shí)現(xiàn)上述目的,本發(fā)明所述的一種面向新聞文本基于層級狀態(tài)神經(jīng)網(wǎng)絡(luò)的社會情緒排序方法,包括如下步驟:
(1)對新聞文本進(jìn)行預(yù)處理;
(2)通過句子狀態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò),對詞編碼得到句子表示;包括:使用編碼器對詞編碼得到每個詞的隱狀態(tài),使用注意力機(jī)制計(jì)算每個詞的權(quán)重,最后對每個詞加權(quán)求和,得到每個句子的語義表示;
(3)通過文檔狀態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò),對句子編碼得到文檔表示;包括:使用編碼器對句子編碼得到每個句子的隱狀態(tài),使用注意力機(jī)制計(jì)算每個句子的權(quán)重,最后對每個句子加權(quán)求和,得到文檔的語義表示;
(4)以文檔表示為基礎(chǔ),使用一個多層感知機(jī)將文檔表示映射成標(biāo)簽分布,并使用softmax函數(shù)進(jìn)行歸一化處理,得到相關(guān)情緒的排序結(jié)果。
進(jìn)一步地,所述步驟(1)中的新聞文本預(yù)處理包括:對文檔進(jìn)行分詞,過濾掉文檔中的非中文字符、停用詞和在所處理的數(shù)據(jù)集中僅出現(xiàn)一次的詞。
進(jìn)一步地,所述步驟(2)中對于句子si來說,時(shí)間步t的狀態(tài)表示為:由對于每一個詞wij的隱狀態(tài)和句子級狀態(tài)組成,wij代表句子si的第j個詞的詞向量,Ni是句子si的長度;句子si的語義表示為:
其中,
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010102690.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





