[發明專利]一種長文本中多實體情感分析的方法在審
| 申請號: | 201811283252.4 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN109325238A | 公開(公告)日: | 2019-02-12 |
| 發明(設計)人: | 吳振豪;陳鐘;李青山;蘭云飛;楊可靜;高健博;王曉青 | 申請(專利權)人: | 北京國信云服科技有限公司;北京大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/35 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 劉曉嵐 |
| 地址: | 100094 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 情感分析 文本句子 長文本 文本 文本信息 命名實體 實體結果 算法識別 語法結構 包容性 聚合 句子 分析 信息技術 分割 | ||
1.一種長文本中多實體情感分析的方法,其特征在于:包括以下步驟:
步驟1、對需要進行多實體情感分析的長文章使用命名實體算法識別文本中的實體;
步驟2、根據標點符號對文本進行分割,得到完整的文本句子;
步驟3、對每個文本句子進行語法結構分析,得到每個文本句子中與實體相關的文本信息;
步驟4、根據每個文本句子中與實體相關的文本信息,得到每個文本句子中每個實體的情感;
步驟5、根據每個文本句子中每個實體的情感,得到每個實體在整個全文本中的情感,具體方法為:
步驟5.1、對每個實體的相關情感信息進行向量化,將情感信息轉化為詞向量;
步驟5.2、通過外部情感詞語數據庫對每個實體的相關情感信息附加短語極性,得到每個詞向量的情感極性向量,然后將詞向量和情感極性向量組合成為一個整體,再把每個句子中每個實體的所有相關情感信息全部整合成為一個整體,將每個實體所屬的情感信息聚合體作為一個輸入向量;
步驟5.3、構建LSTM神經網絡結構;
步驟5.4、將步驟5.2構成的每個實體的輸入向量輸入到步驟5.3構建的LSTM神經網絡結構的神經元中,利用LSTM神經網絡結構進行情感信息的聚合;
步驟5.5、根據每個實體的相關情感信息聚合結果并行判斷步驟5.4輸出的每個實體的情感極性。
2.根據權利要求1所述的一種長文本中多實體情感分析的方法,其特征在于:步驟5.3所述構建的LSTM神經網絡結構包括兩層,第一層為實體層神經網絡,第二層為句子層神經網絡;所述實體層神經網絡接受實體情感信息的輸入,時序記憶步長為句子數量*實體數量,并能夠接受同一實體在不同句子下的情感信息;所述句子層神經網絡接收實體層神經網絡的輸出,實體層神經網絡中每實體數量個時序記憶步長之后的結果作為句子層神經網絡的一個輸入,句子層神經網絡最后會輸出結果。
3.根據權利要求2所述的一種長文本中多實體情感分析的方法,其特征在于:步驟5.4所述利用LSTM神經網絡結構進行情感信息聚合的具體方法為:
將每個實體所屬的情感信息聚合體作為某個句子下某個實體的相關情感信息輸入到LSTM神經網絡結構中,使每一個LSTM的時序記憶步長都記憶某個句子中某實體的情感信息;最后一個實體的隱藏狀態會輸入到句子層神經網絡中的LSTM單元,而不是輸入到下一個句子中的首個實體LSTM單元;通過句子層神經網絡中的LSTM單元再對本句子中出現的實體和相關信息進行聚合,利于對聚合結果進行調整;且句子層神經網絡中的LSTM單元是與句子層神經網絡中的LSTM單元連接的,因此進行的都是句子層面的實體信息過濾,把每個實體在全文中的信息進行有效聚合;最后輸出遍歷了全文本后每個實體的相關情感信息聚合結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國信云服科技有限公司;北京大學,未經北京國信云服科技有限公司;北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811283252.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于機器翻譯的完整句識別方法與系統
- 下一篇:學生課堂表現管理方法及系統





