[發明專利]一種基于對抗訓練和TF-IDF的文本情感分類方法及裝置在審
| 申請號: | 202210818922.8 | 申請日: | 2022-07-12 |
| 公開(公告)號: | CN115309894A | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 沈志東;袁芙蓉 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 羅飛 |
| 地址: | 430072 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 對抗 訓練 tf idf 文本 情感 分類 方法 裝置 | ||
本發明公開了一種基于對抗訓練和TF?IDF的文本情感分類方法及裝置,針對文本情感分類任務,分別從生成可解釋的對抗樣本和文本特征提取兩個角度進行研究,確保深度神經網絡模型提高分類準確率的同時提高對抗樣本的可解釋性。對于如何在模型訓練過程中生成可解釋對抗樣本這一問題,本發明針對性地提出將對抗訓練應用于BERT嵌入層,將文本單詞的擾動方向規范到嵌入空間中現有近鄰詞的方向來提高對抗樣本的可解釋性;對于如何提取更多文本特征,本發明提出使用注意力機制和改進的TF?IDF算法來獲得額外的文本特征,從而使得模型能夠得出更加全面、準確的文本情感傾向。
技術領域
本發明涉及互聯網技術領域,尤其涉及一種基于對抗訓練和TF-IDF的文本情感分類方法及裝置。
背景技術
情感分析是自然語言處理領域中的一個重要研究方向,它所關注的不是段落句子所設計的主題意義,而是它所表達的觀點。情感分析在多個領域都有著廣泛的應用,從跟蹤用戶在社交媒體平臺上對產品或者時事所發表的意見,到預測公眾行為和改善決策等。隨著人工智能技術的爆炸式發展,富含個人觀點的在線評論網站、個人博客和社交媒體平臺日益普及,情感分析領域出現了新的機遇和挑戰,因為人們現在可以使用信息技術來尋求和理解他人的觀點。在信息爆棚的大數據時代,在各類的社交網絡平臺上每分鐘就會產生海量的數據信息,而這些社交媒體信息中蘊含著豐富的情感知識。通過人工智能技術來提取人們的意見以及隱藏在用戶發表的文本信息中的情感,在廣泛的應用中發揮著重要作用,如輿情監測、預測公眾行為和推薦系統等。
計算機軟件技術和硬件隨著時間更替,各類芯片層出不窮,處理能力也不同往日,深度學習技術逐漸進入大家的視野并廣泛使用,該方法無需消耗大量的人力對文本進行標注,深度學習技術便可以自適應的從文本中挖掘情感特征和上下文情感信息。但是只需要對深度學習模型的原始輸入加一點微小的擾動,深度學習模型便能輸出錯誤的識別結果。
為了應對對抗攻擊帶來的安全威脅,現有的防御方法將對抗擾動添加到深度學習模型訓練過程中,通過將生成的文本對抗樣本與原始樣本共同訓練,讓模型學習對抗樣本來增強模型的泛化能力和魯棒性。自然語言處理領域中通常采用兩種方法生成對抗樣本:基于文本的與基于梯度的。
本申請發明人在實施本發明的過程中,發現現有技術的方法,至少存在如下技術問題:
基于文本的對抗方法是通過替換原始樣本中的單詞或者字符來生成對抗樣本,與基于梯度的對抗方法相比,雖然具有更高的可解釋性,但是缺乏更多的攻擊多樣性,更多地依賴于人類知識,從而限制了對抗模式的多樣性。與其相反,基于梯度的對抗方法在模型訓練過程中,通過將梯度計算的微小擾動輸入到詞嵌入空間中并參與模型訓練,以此來優化模型的參數。在輸入詞嵌入空間添加擾動的方法雖然提高了自然語言處理任務的性能,但是其生成的對抗樣本有可能是語料庫中不存在的單詞,即在一定程度上降低了生成對抗樣本的可解釋性。
由此可知,現有技術中的方法無法實現在保證分類準確性的同時提高生成對抗樣本的可解釋性。
發明內容
本發明的目的是緩解文本情感分類任務中生成對抗樣本的可解釋性和提高情感分類準確率,通過將對抗擾動規范到已有詞嵌入空間,來實現生成對抗樣本的可解釋性的提高。針對如何在確保模型分類準確率的情況下提高生成對抗樣本的可解釋性這一問題,本發明通過在BERT微調過程對嵌入空間添加對抗擾動,同時限制對抗擾動的方向到原始文本的近鄰詞的方向上,原始文本的近鄰詞是通過BERT的掩碼語言模型求出;針對如何提取額外的文本特征,本發明將訓練集中已有的文本分類信息考慮到TF-IDF算法中,來提取文本中更加深層次的文本特征,從而提高最終模型的性能。
本發明采用的技術方案如下:
第一方面提供了一種基于對抗訓練和TF-IDF的文本情感分類方法,包括:
S1:獲取原始文本,從原始文本中劃分出訓練集;
S2:對訓練集進行預處理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210818922.8/2.html,轉載請聲明來源鉆瓜專利網。





