[發明專利]一種對抗攻擊敏感的文本分類方法有效
| 申請號: | 202010798650.0 | 申請日: | 2020-08-05 |
| 公開(公告)號: | CN111984762B | 公開(公告)日: | 2022-12-13 |
| 發明(設計)人: | 史曉雨;尚明生;王思源 | 申請(專利權)人: | 中國科學院重慶綠色智能技術研究院 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08;G06N20/10 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400714 重慶市北*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 對抗 攻擊 敏感 文本 分類 方法 | ||
1.一種對抗攻擊敏感的文本分類方法,其特征在于,該方法包含以下步驟:
S1:選擇文本數據源;
S2:對文本數據進行預處理,并采用詞向量技術進行詞向量訓練,生成詞庫;
S3:結合詞庫,建立特征提取模型,得到特征向量;
S4:建立原型聚類模型,實現特征向量基于原型的分類;
S5:訓練步驟S3~步驟S4中的模型,將訓練好的模型用于新文本數據的分類;
步驟S3所述的特征提取模型由一個一維卷積神經網絡串聯一個雙向的長短時記憶網絡,最后再串聯一個全連接層構成;該模型以詞庫的詞向量的數值形式作為輸入,以特征向量作為輸出;
步驟S4所述的原型聚類模型為K-Means原型聚類模型,該模型以特征向量作為輸入,以距離數值作為輸出;
步驟S5所述的訓練步驟S3中的特征提取模型的優化目標為:
其中,為原型聚類模型計算出的對應于第i個分類的歐氏距離,K為總分類個數,x為文本數據,f(x)為文本數據經特征提取模型處理后的特征向量,ci為第i個分類的中心;
所采用的中心損失函數loss為帶有正則項的基于距離的中心損失函數,具體為:
其中,E(i)=e-γ·D,γ為控制參數,λ為正則化權重參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院重慶綠色智能技術研究院,未經中國科學院重慶綠色智能技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010798650.0/1.html,轉載請聲明來源鉆瓜專利網。





