[發明專利]一種基于雙向交互神經網絡的文本情感分析方法在審
| 申請號: | 201811257439.7 | 申請日: | 2018-10-26 |
| 公開(公告)號: | CN109522548A | 公開(公告)日: | 2019-03-26 |
| 發明(設計)人: | 張立鵬;顧淑琴;張鵬 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/35 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉玥 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 文本情感 雙向交互 測試集 多模態 文本詞 向量 語料 概率 預處理 情感分類模型 神經網絡模型 相對位置信息 加權融合 決策融合 情感分類 圖像預測 文本預測 訓練語料 詞向量 訓練集 構建 量子 句子 樣本 分析 搜集 文本 智能 預測 全局 | ||
本發明公開了一種基于雙向交互神經網絡的文本情感分析方法,包括以下步驟:搜集實體?文本情感語料集,并將其分為訓練集與測試集;對語料集中的實體和文本進行預處理;運用相對位置信息和全局詞向量信息,構建詞和句子表示;將訓練語料集的實體和文本詞向量輸入到神經網絡,訓練出情感分類模型;將測試集實體和文本詞向量輸輸入到神經網絡模型中,從而計算出每個樣本的預測概率;運用量子啟發的多模態決策融合方法將文本預測概率和圖像預測概率加權融合,最終得到更加準確且智能的多模態情感分類結果。
技術領域
本發明涉及文本情感分類技術領域,具體講,涉及一種基于雙向交互神經網絡的文本情感分析方法。
背景技術
隨著互聯網和社交網絡的迅速發展,越來越多的用戶喜歡在社交平臺上(如微博、點評、 Facebook等)發表評論和分享自己的觀點,成為用戶日常生活中獲取信息的主要來源之一。不同于單純的文本情感分析,現在的社交媒體上出現的文本一般不單敘述一個事物,通常會變現為對一個或多個事物的評價,所以我們對文本的情感分析要做到分析具體針對某個實體情況下的情感極性,這使得我們可以知道一段文本描述的每個事物的情感是怎樣的。因此,文本情感分析不僅具有重要的理論意義,而且蘊含巨大的社會價值。本發明主要研究社交平臺中最普遍的實體文本情感,即實體-文本情感分析技術。
情感分析,也稱為意見挖掘,是自然語言處理(NLP)中的一項重要任務。它根據文本的情感狀態和主觀信息將文本分為兩類或更多類,受到業界和學術界的廣泛關注。在本發明中,我們討論了實體-文本情感分析技術,這是文本情感分析領域的細粒度任務。例如,一段文本是“菜單看起來很好,除了提供智利海鱸魚,但服務不提供在外面寫在板上的特價。”。對于實體詞“菜單”,情感極性為正,但對于實體詞“服務”,極性為負,而對于“特價”,極性為中性。
實體-文本分析旨在區分給定句子中每個特定實體的情感極性。工業界和學術界都意識到了實體與句子之間關系的重要性,并試圖通過設計一系列注意力模型來建立他們之間的關系。然而,大多數現有方法通常忽略了位置信息對于識別實體的情感極性也是至關重要的事實。當一個實體出現在一個句子中時,其相鄰的單詞應該比其他距離更遠的單詞給予更多的關注。因此本發明關注到實體詞與文本的位置信息關系,構建了一個可以利用位置信息的雙向注意力交互神經網絡模型來解決實體-文本情感分析問題。
現在,基于注意力的神經網絡模型已經被研究者們用來建模一些自然語言處理任務,并且已經非常成功。然而,目前的方法大部分只采用全局詞向量信息,沒有用到位置信息。
發明內容
本發明所要解決的技術問題是克服現有技術的不足而提供一種基于雙向交互神經網絡的文本情感分析方法,本發明是搭建一個基于社交平臺的實體-文本情感語料集,分別構建文本和實體的詞向量和相對位置信息,運用雙向注意力神經網絡模型訓練文本情感分類模型,并利用反向傳播、隨機梯度下降優化方法訓練網絡模型得到最優模型在測試集上預測結果,最終得到更加準確的分類結果。
本發明的目的是通過以下技術方案來實現的,包括如下步驟:
(1):構建一個實體-文本情感語料集,該語料集的總樣本數為N,其中每條樣本包含一段文本和一個實體詞;
(2):從(1)的文本情感語料集中,隨機選取80%*N個樣本作為訓練集,10%*N個樣本劃分為驗證集和剩余的10%*N個樣本劃分為測試集,并分別對訓練集、驗證集和測試集進行預處理,去除每個文本的停留詞、標點符號;
(3):對預處理之后的文本和實體詞,根據實體詞在文本中的位置構造文本中每個詞的相對位置信息特征,并輸入到一個雙向交互的神經網絡模型中,運用方法如下:
3.1:根據實體詞的位置構造文本中每個詞的相對位置索引,假設一個實體詞出現在句子中,那么它的位置索引將被標記為“0”,而句子中的其他詞的位置索引將被表示為與當前實體詞的相對距離:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811257439.7/2.html,轉載請聲明來源鉆瓜專利網。





