[發明專利]一種防范文本流次序變換攻擊的方法有效
| 申請號: | 202110589788.4 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113312450B | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 李建欣;周號益;張帥;何銘睿;陳天宇 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F21/60;G06F40/126;G06F40/44;G06F40/58 |
| 代理公司: | 北京中創陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 防范 文本 次序 變換 攻擊 方法 | ||
1.一種防范文本流次序變換攻擊的方法,其特征在于:包括以下三個步驟:
步驟一:基于隨機化次序編碼的自然語言處理模型:對于一個文本處理任務預處理后,隨機生成隨機生成序列,并使用隨機生成序列作為生成次序編碼的密鑰,同時以此生成的次序編碼作為記錄位置信息的編碼后,將所述隨機生成序列進行基于EM算法的學習;
步驟二:基于EM算法學習隨機化序列概率分布:對于針對流次序攻擊的對抗樣本,首先通過均勻分布的方式生成密鑰隨機序列,結合所述隨機生成序列抵御對抗樣本,如果對抗成功,則記錄下此隨機序列作為EM學習的統計數據,重復上述操作,得到一定量的成功抵御對抗樣本的隨機序列;這些隨機序列通過頻率統計在樣本空間中呈現特定分布,最終作為EM算法的輸入,通過EM算法學習混合高斯分布的參數,最后達成能夠用此混合高斯分布來擬合所述特定分布的目標,即通過混合高斯分布來生成密鑰次序編碼,防范文本流次序攻擊;
步驟三:生成隨機化序列密鑰:通過EM學習到的混合高斯分布來生成隨機化序列密鑰,并將其輸出到隨機化次序編碼的自然語言處理模型中;
方法的訓練與部署需要搭建包括pytorch與依賴庫的運行環境。
2.如權利要求1所述的一種防范文本流次序變換攻擊的方法,其特征在于:所述預處理方法為:將普通的文本翻譯訓練數據作為自然語言處理模型的訓練數據,將抗樣本數據作為攻擊自然語言處理模型的數據,對抗樣本的生成方法為,在原始數據上加入與次序編碼大小相同的取反數值,當自然語言處理模型在計算次序編碼后,由于是直接加在注意力編碼后,緊接著被擾動消除,最后位置信息丟失,達到了模型效果下降的效果,即攻擊成功,成功攻擊次序編碼的樣本即為對抗樣本,作為測試的輸入。
3.如權利要求2所述的一種防范文本流次序變換攻擊的方法,其特征在于:所述隨機生成隨機生成序列的方法以及保存位置信息的方法為:采用統一密鑰的隨機化次序再結合三角函數進行編碼,利用統一的次序密鑰,在通過密鑰后得到正確的次序保存位置信息。
4.如權利要求3所述的一種防范文本流次序變換攻擊的方法,其特征在于:所述生成隨機化序列密鑰的方法為:首先在模型訓練過程中,加載此密鑰作為生成次序編碼中次序的部分,
f(pos)的部分是密鑰代表的位置,在測試時也采用同樣的密鑰所代表的位置來進行次序編碼的生成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110589788.4/1.html,轉載請聲明來源鉆瓜專利網。





