[發明專利]一種對抗樣本的生成方法、裝置、電子設備和存儲介質在審
| 申請號: | 202010213381.7 | 申請日: | 2020-03-24 |
| 公開(公告)號: | CN113449097A | 公開(公告)日: | 2021-09-28 |
| 發明(設計)人: | 呂中厚;王文華;劉焱 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/151;G06F40/216;G06F11/14;G06N20/00;G06N3/00 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 對抗 樣本 生成 方法 裝置 電子設備 存儲 介質 | ||
本申請公開了一種對抗樣本的生成方法、裝置、電子設備和存儲介質,涉及自然語言處理領域。具體實現方案為:基于文本分類模型的原始文本樣本,生成多個粒子文本樣本;確定當前多個粒子文本樣本中是否存在針對文本分類模型的有效對抗樣本,若存在,則將有效對抗樣本進行輸出;若不存在,則將當前多個粒子文本樣本進行更新,將更新后的多個粒子文本樣本作為當前多個粒子文本樣本,并返回執行確定當前多個粒子文本樣本中是否存在針對文本分類模型的有效對抗樣本的步驟。本申請實施例基于原始文本樣本生成多個粒子文本樣本,采用粒子群優化算法的思想,基于當前多個粒子文本樣本獲得針對文本分類模型的有效對抗樣本,提高獲得有效對抗樣本的成功率。
技術領域
本申請涉及互聯網技術領域,尤其涉及自然語言處理領域,具體涉及一種對抗樣本的生成方法、裝置、電子設備和存儲介質。
背景技術
為了對深度學習模型進行漏洞評估等,需要針對深度學習模型生成對抗樣本(Adversarial Examples)。一般通過在輸入樣本中添加細微的干擾信息,來產生對抗樣本,對抗樣本會導致深度學習模型以高置信度給出一個錯誤的輸出。
上述的深度學習模型可以是文本分類模型,針對文本分類模型生成的對抗樣本為文本對抗樣本。生成文本對抗樣本的一種方案為:對于作為輸入樣本的文本,利用貪心算法的思想,將文本中所有單詞進行優先級打分,將各單詞按照優先級分數從高到低的順序排序后,選取前K個單詞,并將選取的單詞進行轉換后生成文本對抗樣本。將該文本對抗樣本輸入文本分類模型,若文本分類模型的輸出結果與預期結果相反,則該文本對抗樣本為有效對抗樣本,否則,該文本對抗樣本為無效對抗樣本。
上述生成文本對抗樣本的方案存在以下缺陷:利用貪心算法的思想生成文本對抗樣本的方法雖然簡單、高效,但是成功率較低。
發明內容
本申請實施例提供一種對抗樣本的生成的方法、裝置、電子設備和存儲介質,以達到提高獲得有效對抗樣本的成功率的目的。
第一方面,本申請實施例提供了一種對抗樣本的生成方法,包括:
基于文本分類模型的原始文本樣本,生成多個粒子文本樣本,其中所述多個粒子文本樣本與所述原始文本樣本不同;
確定當前多個粒子文本樣本中是否存在針對所述文本分類模型的有效對抗樣本,若存在,則將所述有效對抗樣本進行輸出;
若不存在,則將當前多個粒子文本樣本進行更新,將更新后的多個粒子文本樣本作為當前多個粒子文本樣本,并返回執行確定當前多個粒子文本樣本中是否存在針對所述文本分類模型的有效對抗樣本的步驟。
上述申請中的一個實施例具有如下優點或有益效果:在基于原始文本樣本生成多個粒子文本樣本后,采用粒子群優化算法的思想,基于當前多個粒子文本樣本獲得針對所述文本分類模型的有效對抗樣本,可有效提高獲得有效對抗樣本的成功率。
可選的,基于文本分類模型的原始文本樣本,生成多個粒子文本樣本,包括:
生成文本分類模型的原始文本樣本對應的多個備份文本樣本;
針對各所述備份文本樣本,從當前備份文本樣本中選取至少一個單詞,并將選取的所述單詞進行內容轉換,得到當前備份文本樣本對應的粒子文本樣本。
上述申請中的一個實施例具有如下優點或有益效果:通過選取單詞,并對選取單詞進行轉換的方式確定粒子文本樣本,可提升獲取粒子文本樣本的效率。
可選的,從當前備份文本樣本中選取至少一個單詞,包括:
獲取當前備份文本樣本中各單詞分別對應的選擇概率值;其中,所述各單詞分別對應的選擇概率值是根據各單詞對所述文本分類模型的檢測結果的影響度確定的;
基于所述選擇概率值從所述當前備份文本樣本中選取至少一個單詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010213381.7/2.html,轉載請聲明來源鉆瓜專利網。





