[發(fā)明專利]一種面向深度強化學習模型對抗攻擊的防御方法有效
| 申請?zhí)枺?/td> | 201911184051.3 | 申請日: | 2019-11-27 |
| 公開(公告)號: | CN110968866B | 公開(公告)日: | 2021-12-07 |
| 發(fā)明(設(shè)計)人: | 陳晉音;王雪柯;熊暉;鄭海斌 | 申請(專利權(quán))人: | 浙江工業(yè)大學 |
| 主分類號: | G06F21/55 | 分類號: | G06F21/55;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天勤知識產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 深度 強化 學習 模型 對抗 攻擊 防御 方法 | ||
本發(fā)明公開了一種面向深度強化學習模型對抗攻擊的防御方法及應(yīng)用,包括:利用視覺預(yù)測模型對輸入的前一時刻環(huán)境狀態(tài)進行預(yù)測輸出預(yù)測當前環(huán)境狀態(tài),并獲得預(yù)測當前環(huán)境狀態(tài)在深度強化學習策略下的下一幀預(yù)測環(huán)境狀態(tài)值;獲取深度強化學習模型輸出的實際當前環(huán)境狀態(tài),并獲得實際當前環(huán)境狀態(tài)在深度強化學習策略下添加擾動的環(huán)境狀態(tài)值;利用判別模型對預(yù)測環(huán)境狀態(tài)值和添加擾動的環(huán)境狀態(tài)值進行判別,根據(jù)判別結(jié)果獲得深度強化學習模型是否被攻擊;在深度強化學習模型被攻擊時,提取實際當前環(huán)境狀態(tài),利用兩個防御模型對實際當前環(huán)境狀態(tài)進行防御;深度強化學習模型利用防御后的實際當前環(huán)境狀態(tài)進行學習預(yù)測輸出。
技術(shù)領(lǐng)域
本發(fā)明屬于安全防御領(lǐng)域,具體涉及一種面向深度強化學習模型對抗攻擊的防御方法。
背景技術(shù)
隨著人工智能技術(shù)的迅速發(fā)展,越來越多的領(lǐng)域都開始使用AI技術(shù)。自1956年“人工智能”概念的首度提出以來,AI的受關(guān)注度就越來越高。其研究領(lǐng)域包括知識表示、機器感知、機器思維、機器學習、機器行為,各種領(lǐng)域都取得了一定成就。比如2014年GoogleDeepMind開發(fā)的人工智能圍棋軟件——阿爾法圍棋(AlphaGo),就利用了深度學習和強化學習,并于2016年戰(zhàn)勝世界頂級圍棋選手之一李世石。強化學習也是一種多學科交叉的產(chǎn)物,它本身是一種決策科學,所以在許多學科分支中都可以找到它的身影。強化學習應(yīng)用廣泛,比如:直升機特技飛行、游戲AI、投資管理、發(fā)電站控制、讓機器人模仿人類行走等。
在游戲領(lǐng)域,為了提高用戶體驗,在很多場景下需要訓練AI自動玩游戲,目前,游戲訓練場景接受度最高的是深度強化學習(Deep Reinforcement Learning),一般情況下使用DQN來訓練游戲AI自動玩游戲。DRL網(wǎng)絡(luò)充分利用了卷積神經(jīng)網(wǎng)絡(luò)處理大數(shù)據(jù)的能力,將游戲畫面作為輸入,同時融合更多的游戲數(shù)據(jù)作為輸入。然而神經(jīng)網(wǎng)絡(luò)極易受到對抗性攻擊,專家學者們也提出了很多攻擊方法和防御方法,但是,針對深度強化學習的防御方法并沒有成型的專利提出。隨著深度強化學習的應(yīng)用越來越廣泛,安全性必然成為其發(fā)展的重要隱患因素之一。
強化學習就是學習如何根據(jù)一個環(huán)境環(huán)境狀態(tài)去決定如何行動,使得最后的獎勵最大。強化學習中兩個最重要的特征就是試錯(trial-and-error)和滯后獎勵(delayedreward)。觀察過程的環(huán)境狀態(tài)容易被攻擊者添加對抗擾動,攻擊者也可直接攻擊行動或獎勵值以達到攻擊目的。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種面向深度強化學習模型對抗攻擊的防御方法,該方法能夠提高深度強化學習的決策網(wǎng)絡(luò)的魯棒性,能夠防止在線學習和離線學習觀測環(huán)境狀態(tài)被惡意干擾,最終導(dǎo)致獎勵值有較大偏差從而使Agent行為出錯。
為實現(xiàn)上述發(fā)明目的,本發(fā)明提供以下技術(shù)方案:
一種面向深度強化學習模型對抗攻擊的防御方法,所述防御方法包括以下步驟:
利用基于生成式對抗網(wǎng)絡(luò)構(gòu)建的視覺預(yù)測模型對輸入的前一時刻環(huán)境狀態(tài)進行預(yù)測輸出預(yù)測當前環(huán)境狀態(tài),并獲得預(yù)測當前環(huán)境狀態(tài)在深度強化學習策略下的下一幀預(yù)測環(huán)境狀態(tài)值;
獲取深度強化學習模型輸出的實際當前環(huán)境狀態(tài),并獲得實際當前環(huán)境狀態(tài)在深度強化學習策略下添加擾動的環(huán)境狀態(tài)值;
利用基于生成式對抗網(wǎng)絡(luò)構(gòu)建的判別模型對預(yù)測環(huán)境狀態(tài)值和添加擾動的環(huán)境狀態(tài)值進行判別,根據(jù)判別結(jié)果獲得深度強化學習模型是否被攻擊;
在深度強化學習模型被攻擊時,提取實際當前環(huán)境狀態(tài),利用基于SqueezeNet的第一防御模型對實際當前環(huán)境狀態(tài)進行第一層防御,利用基于DenseNet的第二防御模型對第一層防御結(jié)果進行第二層防御,獲得防御后的實際當前環(huán)境狀態(tài);
深度強化學習模型利用防御后的實際當前環(huán)境狀態(tài)進行學習預(yù)測輸出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學,未經(jīng)浙江工業(yè)大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911184051.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





