[發明專利]面向深度強化學習的策略保護防御方法有效
| 申請號: | 202110651675.2 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113392396B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 陳晉音;章燕;王雪柯;胡書隆 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F21/55 | 分類號: | G06F21/55;G06F21/62;G06N3/08 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 高燕 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 深度 強化 學習 策略 保護 防御 方法 | ||
1.一種面向深度強化學習的策略保護防御方法,其特征在于,包括以下步驟:
1)搭建深度強化學習的目標智能體自動駕駛模擬環境,基于強化學習中的深度Q網絡預訓練目標智能體以優化深度Q網絡的參數;
2)根據優化后的深度Q網絡的策略πt生成T個時刻目標智能體駕駛序列狀態動作對和獎勵值作為專家數據;
3)根據專家數據模仿學習生成模仿策略πIL;
4)目標智能體在模仿策略πIL的基礎上對自身的策略進行調整學習,通過對深度Q網絡進行微調并修改目標函數,使得在保證目標智能體策略πt可以獲得較高的期望獎勵值的同時,保證根據模仿策略πIL得到的期望獎勵值較低,以達到策略保護的目的。
2.根據權利要求1所述的面向深度強化學習的策略保護防御方法,其特征在于,步驟1)包括:
1.1)搭建深度強化學習的目標智能體自動駕駛模擬環境;
1.2)基于強化學習中的深度Q網絡訓練目標智能體,訓練目標是在較短的時間內安全地到達目的地;
1.3)訓練過程中,將目標智能體的狀態轉換過程存儲在經驗回放緩沖區Buff中,作為深度Q網絡的訓練數據集;所述的深度Q網絡包括當前Q網絡和目標Q網絡;
1.4)從經驗回放緩沖區Buff中隨機采樣N個訓練數據集,通過最小化當前Q網絡的預測Q值和目標Q網絡的目標Q值的均方差來更新當前Q網絡的網絡參數;每隔一段時間將當前Q網絡的參數復制給目標Q網絡。
3.根據權利要求1所述的面向深度強化學習的策略保護防御方法,其特征在于,步驟3)包括:
3.1)將專家數據中的狀態s作為Actor網絡的輸入,根據初始化的模仿策略πIL(a|s)輸出Actor網絡所采取的動作a';
3.2)將a'和專家數據中的狀態s作為狀態動作對(s,a'),與專家數據中對應的狀態動作對(s,a)一起輸入到判別器網絡當中,對其產生的動作進行判別,利用判別器網絡的輸出yD來作為獎勵值以指導模仿策略πIL的學習;
3.3)在模仿策略πIL的學習過程中,通過最大化得到的期望獎勵值來學習專家數據的策略,最小化損失函數以更新Actor網絡和判別器網絡的參數;
3.4)重復步驟3.2)-3.3),迭代更新Actor網絡和判別器網絡的結構參數以學習專家數據的策略,得到模仿策略πIL。
4.根據權利要求3所述的面向深度強化學習的策略保護防御方法,其特征在于,所述判別器網絡的損失函數為:
其中,πIL表示模仿學習得到的策略;πt表示采樣的專家策略;第一項中的logD(s,a)表示判別器對真實數據的判斷;第二項log(1-D(s,a))則表示判別器對生成數據的判斷。
5.根據權利要求3所述的面向深度強化學習的策略保護防御方法,其特征在于,步驟3.3)中,通過梯度求導來最小化損失函數從而反向更新判別器和Actor網絡參數,其損失函數如下:
其中,是模仿策略πIL的熵,由常數λ(λ≥0)控制,作為損失函數中的策略正則項。
6.根據權利要求1所述的面向深度強化學習的策略保護防御方法,其特征在于,步驟4)中,對深度Q網絡進行微調包括:
將深度Q網絡最后的Q網絡層進行復制擴充,得到k個并行的Q網絡層;
在訓練過程中,隨機從k個Q網絡層中選擇一個作為Q值輸出層用于進行策略動作選取;更新參數時,從經驗回放緩沖區Buff中進行數據采樣,然后利用泊松分布生成一個k×1的掩碼對k個Q網絡層進行參數更新,利用k個Q值的平均值作為目標智能體策略πt進行學習和模仿。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110651675.2/1.html,轉載請聲明來源鉆瓜專利網。





