[發明專利]基于擾動改良的自注意力機制社交網絡文本情感分析方法在審
| 申請號: | 202210195759.4 | 申請日: | 2022-02-25 |
| 公開(公告)號: | CN114626372A | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 馬千里;馮華文;鄭彥魁 | 申請(專利權)人: | 華南理工大學;廣州啟辰電子科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/211;G06F40/30;G06K9/62;G06Q50/00 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 黃衛萍 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 擾動 改良 注意力 機制 社交 網絡 文本 情感 分析 方法 | ||
本發明涉及一種基于擾動改良的自注意力機制社交網絡文本情感分析方法,用于在網絡中分析文本表達的情感。步驟如下:將網絡文本數據中的句子用分詞工具切分為詞,并用詞嵌入矩陣將每個詞轉化為詞向量;將詞向量輸入預訓練語言模型(BERT?base)中得到每個詞的隱層狀態(特征表示);將詞的隱層狀態輸入分類器獲得句子的分類概率分布;將每個詞的隱層狀態和句子的分類概率分布進行擾動改良,得到注意力監督信息;用注意力監督信息二次訓練預訓練語言模型;將詞向量輸入改良訓練后的語言模型得到隱層狀態,并用分類器輸出最終分類結果。
技術領域
本發明涉及自然語言處理中的網絡文本情感分析技術領域,具體涉及一種基于擾動改良的自注意力機制社交網絡文本情感分析方法。
背景技術
在文本情感分析任務中,為了達到更好的效果,傳統方法常引入注意力機制用于提高語言模型對于重要的、情感極性較強的詞的關注。傳統的注意力機制存在著若干弊端:語言模型會過度關注一些出現頻率高、而且常屬于某一種類型的詞,對這些詞分配比較高的注意力權重。然而這些詞究竟是否真的對于分類任務有重要影響,語言模型無從得知。這會導致語言模型對于一些真正重要的詞關注程度不夠而過擬合于一些高頻詞,進而影響分類任務的準確性。
在此背景下,對注意力機制進行優化顯得十分重要。國內外現有的前沿方法,是通過各種方式產生一個新的注意力權重分布,監督注意力機制的學習或者直接取代現有的注意力機制。最容易想到的方法是采用人工標注出的關鍵詞來生成監督信息,但是這需要大量的人力標注成本。
采用類似于對抗攻擊的方式對句子或詞進行擾動,是一種經常使用來挖掘詞或句子的重要性信息的方法。利用這種方法生成注意力的監督信息,可以有效地節約人工標注成本。這些方法都存在一個共同的問題:以完全相同的方式處理每一個關鍵詞,對每個關鍵詞分配相同的注意力權重。這顯然是不符合客觀事實的,因為即便這些關鍵詞對于結果都是重要的,但是他們的重要性也不是完全相同的。所以對于所有的關鍵詞簡單粗暴的一視同仁這種方法是缺乏可解釋性的,對于整體任務的提升也是有限的。考慮到這一點,目前亟待提出一種更加細粒度的、更加可解釋的產生注意力權重的監督信息的方法。
發明內容
本發明的目的是為了解決現有技術中的上述缺陷,提供一種基于擾動改良的自注意力機制社交網絡文本情感分析方法,該方法先通過擾動改良得到注意力監督信息,然后利用注意力監督信息對預訓練語言模型(BERT-base)中的注意力機制進行監督訓練,接著用二次訓練后的預訓練語言模型(BERT-base)獲取輸入文本的特征表示,最后用分類器對特征表示進行分類。
本發明的目的可以通過采取如下技術方案達到:
一種基于擾動改良的自注意力機制網絡文本情感分析方法,所述社交網絡文本情感分析方法包括以下步驟:
S1、將用戶話語文本數據中的每個句子切分為詞序列w=(w1,w2,...,wi,...,wN),wi表示詞序列中的第i個詞,1≤i≤N,并將每個詞用詞向量表示X=[x1,x2,...,xi,...,xN],其中,xi是詞向量X中的第i個元素,表示wi對應的詞向量,N為詞的個數,表示實數域;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學;廣州啟辰電子科技有限公司,未經華南理工大學;廣州啟辰電子科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210195759.4/2.html,轉載請聲明來源鉆瓜專利網。





