[發明專利]面向深度強化學習的策略保護防御方法有效
| 申請號: | 202110651675.2 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113392396B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 陳晉音;章燕;王雪柯;胡書隆 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F21/55 | 分類號: | G06F21/55;G06F21/62;G06N3/08 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 高燕 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 深度 強化 學習 策略 保護 防御 方法 | ||
本發明公開了一種面向深度強化學習的策略保護防御方法,包括以下步驟:1)搭建深度強化學習的目標智能體自動駕駛模擬環境,基于強化學習中的深度Q網絡預訓練目標智能體以優化深度Q網絡的參數;2)根據優化后的深度Q網絡的策略πt生成T個時刻目標智能體駕駛序列狀態動作對和獎勵值作為專家數據;3)根據專家數據模仿學習生成模仿策略πIL;4)目標智能體在模仿策略πIL的基礎上對自身的策略進行調整學習,通過對深度Q網絡進行微調并修改目標函數,使得在保證目標智能體策略πt可以獲得較高的期望獎勵值的同時,保證根據模仿策略πIL得到的期望獎勵值較低,以達到策略保護的目的。
技術領域
本發明涉及策略隱私保護,尤其涉及一種面向深度強化學習的策略保護防御方法。
背景技術
深度強化學習是近年來人工智能備受關注的方向之一,隨著強化學習的快速發展和應用,強化學習已經在機器人控制、游戲博弈、計算機視覺、無人駕駛等領域被廣泛使用。為了保證深度強化學習在安全攸關領域的安全應用,關鍵在于分析、發現深度強化學習算法、模型中的漏洞以防止一些別有用心的人利用這些漏洞來進行非法牟利行為。不同于傳統機器學習的單步預測任務,深度強化學習系統需要進行多步決策來完成某項任務,而且連續的決策之間還具有高度的相關性。
強化學習通常是一個連續決策的過程,其基本思想是通過最大化智能體從環境中獲取的累計獎勵,從而學習最優策略以達到學習目的。深度強化學習充分利用神經網絡作為參數結構,結合了深度學習的感知能力和強化學習的決策能力來優化深度強化學習策略,使智能體可以隨著時間的推移從其所在環境中不斷自我學習。但是,深度強化學習訓練得到的策略也會通過模仿學習或者行為克隆而被竊取,此外,竊取者還能根據竊取獲得的策略對深度強化學習模型進行攻擊,反過來擾亂強化學習本身訓練好的策略,使其模型策略存在安全性漏洞,不能再很好地應對當前的環境。這不僅泄露了模型本身的策略數據,同時還給模型帶來了極大的安全隱患,尤其是在需要隱私保護的安全關鍵型領域,有可能造成極大的損失。
由于深度強化學習訓練得到的策略存在隱私泄露的風險,而模仿學習和行為克隆有強大的策略行為學習能力,竊取者可以通過學習到的策略給攻擊者提供了模型的相關信息,從而生成相應的對抗樣本對目標模型進行攻擊,給模型的安全性帶來了極大的挑戰。
目前,深度強化學習通過結合了深度學習的感知能力和強化學習的決策能力來優化自身策略,憑借其所在環境中可以不斷自我學習的優勢得到了廣泛的應用。但是,深度強化學習策略也會通過模仿學習或者行為克隆的方法被竊取,同時還容易因此而受到對抗樣本擾動的攻擊,存在策略泄露和安全威脅的問題。
發明內容
本發明提供了一種基于模仿學習和模型微調的面向深度強化學習的策略保護防御方法,以提高深度強化學習(DRL)模型的魯棒性。
本發明的技術方案如下:
一種面向深度強化學習的策略保護防御方法,包括以下步驟:
1)搭建深度強化學習的目標智能體自動駕駛模擬環境,基于強化學習中的深度Q網絡預訓練目標智能體以優化深度Q網絡的參數;
所述的智能體可以為自動駕駛環境中的無人小車。
優選的,步驟1)包括:
1.1)搭建深度強化學習的目標智能體自動駕駛模擬環境;
1.2)基于強化學習中的深度Q網絡(DQN)訓練目標智能體,訓練目標是在較短的時間內安全地到達目的地;
1.3)訓練過程中,將目標智能體的狀態轉換過程(包括狀態st、動作at、獎勵rt、下一個狀態st')存儲在經驗回放緩沖區Buff中,作為深度Q網絡的訓練數據集;所述的深度Q網絡包括當前Q網絡和目標Q網絡;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110651675.2/2.html,轉載請聲明來源鉆瓜專利網。





