[發明專利]面向新聞文本基于層級狀態神經網絡的社會情緒排序方法在審
| 申請號: | 202010102690.7 | 申請日: | 2020-02-19 |
| 公開(公告)號: | CN111339440A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 周德宇;張朦;楊揚 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F40/211;G06N3/04 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 孟紅梅 |
| 地址: | 211102 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 新聞 文本 基于 層級 狀態 神經網絡 社會 情緒 排序 方法 | ||
1.一種面向新聞文本基于層級狀態神經網絡的社會情緒排序方法,其特征在于,包括如下步驟:
(1)對新聞文本進行預處理;
(2)通過句子狀態循環神經網絡,對詞編碼得到句子表示;包括:使用編碼器對詞編碼得到每個詞的隱狀態,使用注意力機制計算每個詞的權重,最后對每個詞加權求和,得到每個句子的語義表示;
(3)通過文檔狀態循環神經網絡,對句子編碼得到文檔表示;包括:使用編碼器對句子編碼得到每個句子的隱狀態,使用注意力機制計算每個句子的權重,最后對每個句子加權求和,得到文檔的語義表示;
(4)以文檔表示為基礎,使用一個多層感知機將文檔表示映射成標簽分布,并使用softmax函數進行歸一化處理,得到相關情緒的排序結果。
2.根據權利要求1所述的一種面向新聞文本基于層級狀態神經網絡的社會情緒排序方法,其特征在于,所述步驟(1)中的新聞文本預處理包括:對文檔進行分詞,過濾掉文檔中的非中文字符、停用詞和在所處理的數據集中僅出現一次的詞。
3.根據權利要求1所述的一種面向新聞文本基于層級狀態神經網絡的社會情緒排序方法,其特征在于,所述步驟(2)中對于句子si來說,時間步t的狀態表示為:由對于每一個詞wij的隱狀態和句子級狀態組成,wij代表句子si的第j個詞的詞向量,Ni是句子si的長度;句子si的語義表示為:
其中,
是詞wij的權重,Ww、bw和uw是模型參數,softmax(·)是一個歸一化的邏輯回歸函數,tanh(·)是雙曲正切激活函數。
4.根據權利要求1所述的一種面向新聞文本基于層級狀態神經網絡的社會情緒排序方法,其特征在于,所述步驟(3)中對于文檔d來說,時間步t的狀態表示為:由對于每一個句子si的隱狀態和文檔級狀態qt組成,si表示文檔d中的第i句的語義表示,M是文檔中的句子數目;文檔d的語義表示為:
其中,
是句子si的權重,Ws、bs和us是模型參數。
5.根據權利要求1所述的一種面向新聞文本基于層級狀態神經網絡的社會情緒排序方法,其特征在于,所述步驟(4)中使用預先設定的閾值選出相關情緒標簽集合,并排序得到相關情緒的排序結果。
6.根據權利要求1所述的一種面向新聞文本基于層級狀態神經網絡的社會情緒排序方法,其特征在于,相關情緒排序的任務是學習得到排序函數g(di)=[g1(di),g2(di),…,gT(di)]為每個情緒ej分配一個分數gj(di),其中T為情緒標簽數,di為訓練集中的第i個新聞文檔;學習時使用的相關情緒排序損失函數表示為:
其中K為訓練集中新聞文檔數,et表示屬于相關情緒集合Ri的標簽,es表示相關性低于et的情緒標簽,兩者關系表示為es∈<(et);ωts為相關性系數,標準化項normt,s的設置如下:
表示不相關的情緒集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010102690.7/1.html,轉載請聲明來源鉆瓜專利網。





