[發明專利]定向攻擊對抗補丁生成方法及裝置有效
| 申請號: | 202110646139.3 | 申請日: | 2021-06-10 |
| 公開(公告)號: | CN113255816B | 公開(公告)日: | 2021-10-01 |
| 發明(設計)人: | 蔣玲玲;羅娟娟 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京金咨知識產權代理有限公司 11612 | 代理人: | 宋教花;薛海波 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 定向 攻擊 對抗 補丁 生成 方法 裝置 | ||
本發明提供一種定向攻擊對抗補丁生成方法及裝置,所述方法采用連續多個結構不同的白盒模型迭代更新對抗補丁,以使得到的目標通用對抗補丁能夠對結構未知的黑盒模型更好的攻擊效果。通過在引入三元組損失,能夠在定向攻擊的過程中提高輸出目標類別的成功率。通過引入注意力轉移損失,能夠提升目標通用對抗補丁對模型關注區域的遷移效果,以極大提升目標通用對抗補丁的定向攻擊效果。通過引入平滑損失,能夠減小目標通用對抗補丁像素點之間的差距,不易引發人眼關注。進一步地,通過添加對抗補丁的方式,能夠同時在物理層面和數字層面進行定向攻擊,更便于實施。
定向攻擊對抗補丁生成方法及裝置
技術領域
本發明涉及人工智能安全技術領域,尤其涉及一種定向攻擊對抗補丁生成方法及裝置。
背景技術
深度神經網絡(DNNs)的在圖像分類、目標檢測、文本分類和語音識別等領域取得了巨大的成就,已經被廣泛應用于生產生活中。但是,近幾年來研究表明,深度學習網絡是脆弱的,容易受到對抗樣本的影響。對抗樣本通過對干凈的樣本進行修改擾動,以使得訓練好的神經網路產生誤分類或錯誤識別,從而無法完成目標任務。
對抗樣本的存在具有兩面性,一方面,對抗樣本會攻擊或者誤導基于深度學習產生的應用,如汽車駕駛和人臉識別系統,從而造成潛在的安全威脅,可能造成經濟損失或者人員傷亡。另一方面,對抗樣本對深度神經網絡的訓練是有價值和有益的,利用對抗樣本進行對抗訓練,可有效增強深度神經網絡的防御能力和魯棒性。因此,對抗樣本的研究對人工智能安全領域的發展具有重要提升作用。但現有技術中缺少針對結構未知的黑盒模型產生對抗補丁的方法,難以滿足對黑盒模型攻擊對抗和防御提升的應用需求。
發明內容
本發明實施例提供了一種定向攻擊對抗補丁生成方法及裝置,用于解決現有技術中,產生的對抗補丁忽略模型間共同關注的特征,對于模型關注區域的遷移能力弱,且對于結構不確定的黑盒模型進行定向攻擊時成功率低的問題。
本發明的技術方案如下:
一方面,本發明提供一種定向攻擊對抗補丁生成方法,包括:
獲取與待攻擊的黑盒模型任務相同的多個白盒模型,各白盒模型之間的模型結構和參數不同;
獲取隨機的初始化對抗補丁,并確定定向攻擊的目標類別,在多個連續的迭代循環中分別采用各白盒模型對所述初始化對抗補丁進行更新迭代得到目標通用對抗補丁;其中,在先迭代循環的輸出作為在后迭代循環的輸入,每一個迭代循環包括:
獲取多個未經擾動的干凈圖片,將各干凈圖片輸入當前迭代循環對應的第一白盒模型,根據所述第一白盒模型的關注特征輸出各干凈圖片對應的第一預測貢獻權重矩陣和第一注意力關鍵區;
采用當前迭代循環輸入的第一對抗補丁對各干凈圖片內的隨機位置進行替換連接,得到各干凈圖片對應的對抗樣本;
將所述目標類別添加為各對抗樣本的標簽后輸入所述第一白盒模型,并采用預設損失函數計算聯合損失,所述預設損失函數至少包括對抗損失、注意力轉移損失、三元組損失和平滑損失,所述注意力轉移損失根據各干凈圖片對應的第一預測貢獻權重矩陣、第一注意力關鍵區以及連接所述第一對抗補丁時采用的隨機位置計算得到;
根據所述聯合損失值通過梯度下降法進行反向傳播更新所述對抗補丁,重復迭代,將每一次迭代對應的對抗樣本輸入所述黑盒模型得到輸出目標類別的第一置信度,當所述第一置信度大于預設置信度或迭代次數達到預設數值時停止迭代并輸出當前第一對抗補丁。
在一些實施例中,所述預設損失函數為對抗損失、注意力轉移損失、三元組損失和平滑損失的聯合損失,計算式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110646139.3/2.html,轉載請聲明來源鉆瓜專利網。





