[發明專利]一種對抗攻擊敏感的文本分類方法有效
| 申請號: | 202010798650.0 | 申請日: | 2020-08-05 |
| 公開(公告)號: | CN111984762B | 公開(公告)日: | 2022-12-13 |
| 發明(設計)人: | 史曉雨;尚明生;王思源 | 申請(專利權)人: | 中國科學院重慶綠色智能技術研究院 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08;G06N20/10 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400714 重慶市北*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 對抗 攻擊 敏感 文本 分類 方法 | ||
本發明為一種對抗攻擊敏感的文本分類方法,屬于大數據、人工智能的分類領域。該方法包含以下步驟:S1:選擇文本數據源;S2:對文本數據進行預處理,并采用詞向量技術進行詞向量訓練,生成詞庫;S3:結合詞庫,建立特征提取模型,得到特征向量;S4:建立原型聚類模型,實現特征向量基于原型的分類;S5:訓練步驟S3~步驟S4中的模型,將訓練好的模型用于新文本數據的分類。本發明方法在拒絕和增量分類學習任務上都有很大的優勢,能很好地拒絕噪聲樣本和異常值,在提升分類性能的同時提升了模型的魯棒性,更進一步,優化了基于距離的中心損失函數,增加了正則化項,有效防止過擬合現象,進一步提高了本發明的泛化能力。
技術領域
本發明涉及一種對抗攻擊敏感的文本分類方法,屬于大數據挖掘、人工智能分類領域,尤其適用于大規模的文本分類處理。
背景技術
文本分類是自然語言處理當中的核心技術,有著廣泛的應用場景。文本分類就是在給定的分類體系下,讓計算機根據給定文本的內容,將其判斷為事先確定的若干個類別的過程。文本分類在冗余過濾、組織管理、智能檢索、信息過濾、元數據提取、構建索引、歧義消解、文本過濾等方面有很重要的應用。國內外對文本分類以及相關的信息檢索、信息抽取領域進行了較為深入的研究。
以醫藥專利分類為例。專利作為知識產權的重要載體,已成為各行業高科技企業和科研機構的重要戰略資源,特別是在生物醫藥行業領域。在這樣的背景下,為了進一步了解醫療研發的現狀,制藥公司在研制新藥的同時往往會對涉及新藥的專利分布情況進行詳細的調研,以免觸碰知識產權的保護范圍。因此,根據制藥企業的不同需求對專利進行定制化分類具有重要意義。在當今全球疫情嚴重的情況下,好的醫藥專利分類方法能夠迅速地幫助制藥公司和科研機構從現有的專利庫里面找到有助于抑制新冠抗病毒類的相關醫藥專利,從而加快抑制新冠病毒藥品的研發進度,具有一定的社會效益和發展前景。
目前,對于文本數據的分類工作更多的還是依靠人工分類或者強約束策略式分類方法,所謂的策略式分類往往是領域專家依靠自身經驗制定的關鍵詞匹配規則,來對文本數據進行簡單的分類。雖然這些方法都能夠在一定程度上對文本數據達到分類的目的,但是人工分類方法效率低下,人力資源成本過高,而強策略式分類方法受限于領域專家的知識,雖然有一定的準確率保障,但查全率往往表現很不理想。
隨著機器學習技術的迅速發展,機器學習的方法如——最近鄰(KNN)、支持向量機(SVM)、隨機森林(RF)等分類器已被應用于文本分類,但僅適合于小樣本數據集,且分類性能有待提高。深度學習方法如——卷積神經網絡(CNN)、長短時記憶網絡(LSTM)等能很好的處理大數據集樣本,通過提取數據潛在的信息和使用softmax損失函數層進行分類,能很好的提升分類的精度。分類的準確度長期以來都是評價分類模型性能的最核心甚至唯一標準。但最近研究表明,即使是充分訓練好的深度神經網絡模型也很容易被對抗攻擊算法攻破。以圖像為例,對抗攻擊是指在圖像上加入特定的且人眼無法察覺的微量噪聲,使得目標模型對加噪之后得到的對抗樣本做出錯誤分類,對于文本分類而言,對抗攻擊的敏感性則是指目標模型對異常文本(如噪聲樣本、外來樣本)的辨識能力。
發明內容
有鑒于此,本發明提供一種對抗攻擊敏感的文本分類方法,通過一維特征提取模型和原型聚類模型相結合,不僅能夠針對不平衡文本數據進行自動分類,提高準確率和查全率,而且能夠提高模型的魯棒性和泛化能力,對抗數據干擾。
為達到上述目的,本發明提供如下技術方案:
一種對抗攻擊敏感的文本分類方法,包括如下步驟:
S1:選擇文本數據源;
S2:對文本數據進行預處理,并采用詞向量技術進行詞向量訓練,生成詞庫;
S3:結合詞庫,建立特征提取模型,得到特征向量;
S4:建立原型聚類模型,實現特征向量基于原型的分類;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院重慶綠色智能技術研究院,未經中國科學院重慶綠色智能技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010798650.0/2.html,轉載請聲明來源鉆瓜專利網。





