[發明專利]一種基于循環神經網絡判斷文本情感傾向性的方法在審
| 申請號: | 202010513283.5 | 申請日: | 2020-06-08 |
| 公開(公告)號: | CN111881249A | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 劉志鋒;楊云成;周從華 | 申請(專利權)人: | 江蘇大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/35;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 212013 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 循環 神經網絡 判斷 文本 情感 傾向性 方法 | ||
本發明公開了一種基于循環神經網絡判斷文本情感傾向性的方法,通過結合LSTM在學習文本上下文方面的優勢,將傳統的語言學規則融入到LSTM文本分類模型中。利用循環神經網絡學習詞的上下文信息后,通過損失函數引入現有的句子級情感分析的LSTM模型。在沒有增大模型復雜度的情況下,有效的利用情感詞典、否定詞和程度副詞的信息,在實驗數據集上取得了較好的成果。
技術領域
本發明屬于自然語言處理技術領域,具體涉及一種基于循環神經網絡判斷文本情感傾向性的方法。
背景技術
文本自動分類是信息檢索與數據挖掘領域的研究熱點與核心技術,近年來得到了廣泛的關注和快速的發展。在20世紀90年代以前,文本的自動分類主要是依靠知識工程的方式進行的,即由專業人員手工進行分類,其缺點是效率低下、成本高。90年代以來,研究人員通過機器學習的方法實現文本的自動分類,例如支持向量機算法SVM、KNN算法和Logistic算法等,取得了比較好的效果。近年來,隨著深度學習的快速發展,將其應用于自然語言處理領域,相較于傳統的機器學習算法,效果有較大幅度的提升?,F有的研究已經證明了循環神經網絡適合于學習句子之間的長期依賴關系,但是未考慮將傳統的語言規則融入到分類模型中。
發明內容
本發明主要是針對上述現有技術的不足,提供了一種基于循環神經網絡判斷文本情感傾向性的方法,通過結合LSTM在學習文本上下文方面的優勢,將傳統的語言學規則融入到LSTM文本分類模型中。利用循環神經網絡學習詞的上下文信息后,通過損失函數引入現有的句子級情感分析的LSTM模型,最后將學習結果通過一個多層感知器進行分類和輸出。
為實現上述發明目的,本發明的具體技術方案如下:一種基于循環神經網絡判斷文本情感傾向性的方法,包括以下步驟:
S1)對輸入文本的句子進行預處理,利用連續詞帶模型生成的詞向量表獲取輸入文本中的每一個詞的向量化表示;
S2)對步驟S1中得到的句子詞向量建立ID矩陣,將ID矩陣輸入到循環神經網絡中,學習輸入文本中詞的上下文信息,得到包含語義信息及上下文信息的句子詞向量;
S3)將語言學規則以約束的形式和循環神經網絡進行結合;
S4)將步驟4得到的輸出結果連接到一個全連接層,通過softmax層對句子的情感傾向類別進行預測。
進一步地,本發明在多層神經網絡中完成,所述步驟1在第一層輸入層完成,步驟2在循環神經網絡(LSTM)層完成,步驟4在輸出層完成。
進一步地,上述步驟1中對輸入文本的句子進行預處理包括去除指定無用的符號、讓文本只保留英文、分詞、去停用詞。
進一步地,上述步驟3中根據語言學規則,將詞分為不帶有情感傾向、帶有情感傾向、否定詞、程度副詞四種形式,通過損失函數引入到句子級情感分析的LSTM模型中,損失函數如下:
其中,yi是樣本的實際分布,pi是預測得到的樣本分布,是語言學規則中的一個或者多個的組合,i是句子的索引,t是位置的索引。
進一步地,上述的一種基于循環神經網絡判斷文本情感傾向性的方法,其特征在于,不帶有情感傾向的詞的處理方法如下:
如果文本中相鄰的兩個詞都是不帶有情感傾向的詞,則運用下列公示計算情感分布:
其中代表情感分布,M是閾值(當KL散度大于這個值時,代表是NSR),DKL(,p)q代表對稱KL散度,pt是要預測的位置t處的詞的分布,用向量表示為ht;KL散度是一個用來衡量兩個分布或兩個函數之間差異的指數,KL散度的定義優化如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇大學,未經江蘇大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010513283.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于儲磚系統的電動軌道車傳電結構及儲磚系統
- 下一篇:圖像處理方法及裝置





