[發明專利]面向深度強化學習對抗攻擊的模型增強防御方法在審
| 申請號: | 202010896464.0 | 申請日: | 2020-08-31 |
| 公開(公告)號: | CN112069504A | 公開(公告)日: | 2020-12-11 |
| 發明(設計)人: | 陳晉音;王雪柯;章燕 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F21/57 | 分類號: | G06F21/57;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 深度 強化 學習 對抗 攻擊 模型 增強 防御 方法 | ||
本發明公開了一種面向深度強化學習對抗攻擊的模型增強防御方法,包括:(1)根據A3C模型,從自動駕駛場景中采集每個線程訓練所需的樣本數據;(2)針對每個線程構建由子Actor網絡模型和子Critic網絡模型組成的子強化學習模型,設定Actor損失函數和Critic損失函數;(3)針對每個線程對應的子強化學習模型,根據Actor損失函數對子Actor網絡模型進行優化學習;根據Critic損失函數對子Critic網絡模型進行優化學習;(4)利用子強化學習模型的參數更新A3C模型對應的主強化學習模型的參數,實現對主強化學習模型的訓練,得到能夠抵抗對抗攻擊的主強化學習模型。
技術領域
本發明屬于深度學習安全領域,具體涉及一種面向深度強化學習對抗攻擊的模型增強防御方法。
背景技術
人工智能的飛速發展,越來越多的領域都開始使用AI技術。強化學習是人工智能領域的一個新興技術,受關注度就越來越高。其研究領域包括知識表示、機器感知、機器思維、機器學習、機器行為,各種領域都取得了一定成就。比如2014年Google DeepMind開發的人工智能圍棋軟件——阿爾法圍棋(AlphaGo),就利用了深度學習和強化學習。強化學習也是一種多學科交叉的產物,它本身是一種決策科學,所以在許多學科分支中都可以找到它的身影。強化學習應用廣泛,比如:直升機特技飛行、游戲AI、投資管理、發電站控制、讓機器人模仿人類行走等。
在游戲領域,為了提高用戶體驗,在很多場景下需要訓練AI自動玩游戲,目前,游戲訓練場景接受度最高的是深度強化學習。自動駕駛領域也在不斷探索中,強度強化學習的出現,對其發展也是起到很大推動作用。深度強化學習模型充分利用了卷積神經網絡處理大數據的能力,將場景作為輸入,其輸出可以使動作概率也可以是動作評價值。
然而,卷積神經網絡極易受到對抗性攻擊,專家學者們也提出了很多攻擊方法和防御方法,目前已有的防御方法包括:(1)利用視覺預測模型和判別器及外加防御模型對強化學習模型進行防御,如申請號為CN201911184051.3公開的一種面向深度強化學習模型對抗攻擊的防御方法;(2)基于強化學習的不安全跨網站腳本(XSS)防御系統識別方法,如申請號為CN201910567203.1公開的一種基于強化學習的不安全XSS防御系統識別方法。目前提出防御方法比較多的是利用強化學習做防御而不是對強化學習模型進行防御。強化學習的安全性必然會成為其發展的重要隱患因素之一。
發明內容
為了解決自動駕駛場景中,利用深度強化學習被攻擊產生不準確的決策造成安全隱患的問題,本發明提供了一種面向深度強化學習對抗攻擊的模型增強防御方法。
本發明的技術方案為:
一種面向深度強化學習對抗攻擊的模型增強防御方法,包括以下步驟:
(1)采用A3C算法從自動駕駛場景中采集每個線程訓練所需的樣本數據,該樣本數據包括環境狀態、動作以及獎勵值;
(2)針對每個線程構建由子Actor網絡模型和子Critic網絡模型組成的子強化學習模型,設定子Actor網絡模型的Actor損失函數為公式(1),在子Critic網絡模型參數中增加噪聲,并設定Critic網絡模型的Critic損失函數為公式(2);
其中,l**為Actor損失函數,θ′是子Actor網絡模型的參數,w′是子critic網絡模型的參數,q是計算的長期累積獎勵值,Q(si;w′)是在參數w′下子critic網絡模型針對環境狀態si的輸出結果,π(ai|si;θ′)表示在參數θ′下子Actor網絡模型針對環境狀態數據si的輸出策略的概率分布,m是智能體每步執行動作時的所能選擇的所有可能的動作個數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010896464.0/2.html,轉載請聲明來源鉆瓜專利網。





