[發明專利]面向深度強化學習對抗攻擊的模型增強防御方法在審
| 申請號: | 202010896464.0 | 申請日: | 2020-08-31 |
| 公開(公告)號: | CN112069504A | 公開(公告)日: | 2020-12-11 |
| 發明(設計)人: | 陳晉音;王雪柯;章燕 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F21/57 | 分類號: | G06F21/57;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 深度 強化 學習 對抗 攻擊 模型 增強 防御 方法 | ||
1.一種面向深度強化學習對抗攻擊的模型增強防御方法,其特征在于,包括以下步驟:
(1)根據A3C模型,從自動駕駛場景中采集每個線程訓練所需的樣本數據,該樣本數據包括環境狀態、動作以及獎勵值;
(2)針對每個線程構建由子Actor網絡模型和子Critic網絡模型組成的子強化學習模型,設定子Actor網絡模型的Actor損失函數為公式(1),在子Critic網絡模型參數中增加噪聲,并設定Critic網絡模型的Critic損失函數為公式(2);
其中,l**為Actor損失函數,θ′是子Actor網絡模型的參數,w′是子critic網絡模型的參數,q是計算的長期累積獎勵值,Q(si;w′)是在參數w′下子critic網絡模型針對環境狀態si的輸出結果,π(ai|si;θ′)表示在參數θ′下子Actor網絡模型針對環境狀態數據si的輸出策略的概率分布,m是智能體每步執行動作時的所能選擇的所有可能的動作個數;
其中,w*是加入噪聲的子critic網絡模型的參數,q是計算的長期累積獎勵值,Q*(si,ai;w*)是在參數w*下子critic網絡模型針對環境狀態si和動作ai的輸出結果,μ是可學習的參數向量,μ∈Rq×p,ε是零均值噪聲的向量,表示按元素相乘,σ∈Rq×p是噪聲系的數;
(3)針對每個線程對應的子強化學習模型,根據Actor損失函數和線程對應的樣本數據對子Actor網絡模型進行優化學習以更新子Actor網絡模型參數;根據Critic損失函數和線程對應的樣本數據對子Critic網絡模型進行優化學習以更新子Critic網絡模型參數;
(4)利用子強化學習模型的參數更新A3C模型對應的由主Actor網絡模型和主Critic網絡模型組成的主強化學習模型的參數,實現對主強化學習模型的訓練,得到能夠抵抗對抗攻擊的主強化學習模型。
2.如權利要求1所述的面向深度強化學習對抗攻擊的模型增強防御方法,其特征在于,所述子Actor網絡模型和主Actor網絡模型包括依次連接的卷積層組和全連接層組,卷積層組包括至少3個依次連接的卷積層,全連接層組包括至少3個依次連接的全連接層。
3.如權利要求1所述的面向深度強化學習對抗攻擊的模型增強防御方法,其特征在于,所述子Critic網絡模型和主Critic網絡模型包括依次連接的卷積層組和全連接層組,卷積層組包括至少3個依次連接的卷積層,全連接層組包括至少3個依次連接的全連接層。
4.如權利要求1所述的面向深度強化學習對抗攻擊的模型增強防御方法,其特征在于,根據Actor損失函數和線程對應的樣本數據對子Actor網絡模型進行優化學習以更新子Actor網絡模型參數時,
將環境狀態si作為子Actor網絡模型的輸入,計算子Actor網絡模型根據輸入的環境狀態si計算獲得的策略動作ai;
根據Actor損失函數計算Actor損失函數值,然后,按照公式(3)更新子Actor網絡模型的參數;
5.如權利要求1所述的面向深度強化學習對抗攻擊的模型增強防御方法,其特征在于,根據Critic損失函數和線程對應的樣本數據對子Critic網絡模型進行優化學習以更新子Critic網絡模型參數時,
將環境狀態si和策略動作ai作為子Critic網絡模型的輸入,計算子Critic網絡模型根據輸入的環境狀態si和策略動作ai計算獲得的Q*值,
根據Critic損失函數計算Critic損失函數值,然后,按照公式(4)更新子Critic網絡模型的參數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010896464.0/1.html,轉載請聲明來源鉆瓜專利網。





