[發明專利]一種統一的基于好奇心驅動的強化學習方法在審
| 申請號: | 202010428975.X | 申請日: | 2020-05-20 |
| 公開(公告)號: | CN111931943A | 公開(公告)日: | 2020-11-13 |
| 發明(設計)人: | 李璽;皇福獻;崔家寶;李偉超 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06K9/62 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 傅朝棟;張法高 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 統一 基于 好奇心 驅動 強化 學習方法 | ||
1.一種統一的基于好奇心驅動的強化學習方法,其特征在于包括以下步驟:
S1、學習注意力模塊,并通過包含注意力模塊的特征提取網絡獲取狀態的特征表達;
S2、使用狀態新穎性估計分別對下一個狀態和當前狀態的探索程度進行估計,再使用前向動態預測估計狀態動作對的探索程度,估計得到的三種探索程度即為初步估計的內部獎勵;
S3、使用狀態空間中的多個樣本對估計出的內部獎勵進行平滑處理;
S4、將平滑處理后的不同類型的內部獎勵進行融合,得到更加準確和魯棒的內部獎勵;
S5、智能體使用和環境交互產生的經驗數據以及融合后的內部獎勵進行策略的學習。
2.如權利要求1所述的一種統一的基于好奇心驅動的強化學習方法,其特征在于,步驟S1中所述的注意力模塊為特征提取網絡的一部分,通過該模塊可以弱化無關的特征,從而獲得關于狀態更準確的特征表達;狀態st經過注意力模塊之后,獲得的特征表達記為
3.如權利要求1所述的一種統一的基于好奇心驅動的強化學習方法,其特征在于,步驟S2中所述的狀態新穎性估計對下一步的狀態st+1的探索程度進行估計,具體計算如下:
其中:為下一個狀態st+1的探索程度,h(st+1;θN)為第一深度網絡對下一個狀態st+1特征的預測值,θN為第一深度網絡的參數,為特征提取網絡提取到的st+1的深層卷積特征;
同理,利用狀態新穎性估計對當前狀態st的探索程度進行估計,具體計算如下:
其中:為當前狀態st的探索程度,h(st;θC)為第二深度網絡對當前狀態st特征的預測值,θC為第二深度網絡的參數,為特征提取網絡提取到的st的深層卷積特征;
然后,針對當前狀態st下動作at的探索程度,使用前向動態預測來估計狀態動作對的探索程度,具體計算如下:
其中:為狀態動作對的探索程度,為第三深度網絡對當前狀態st下執行動作at之后下一個狀態特征的預測值,θF為第三深度網絡的參數;
所得的三種探索程度和即為初步估計的內部獎勵。
4.如權利要求1所述的一種統一的基于好奇心驅動的強化學習方法,其特征在于,所述步驟S3包括以下子步驟:
S31、使用外部記憶體E來存儲智能體和環境交互過程中產生的樣本,當前的樣本記為(st,at,st+1);在估計樣本(st,at,st+1)對應的內部獎勵時,首先在E中采樣出與該樣本距離小于閾值的D個樣本,記為:
S32、對D個樣本分別根據步驟S2估計出三種探索程度,其中第j個樣本(st,j,at,j,st+1,j)的三種探索程度記為:計算采樣出的每個樣本與樣本(st,at,st+1)之間的相似程度,其中第j個樣本與樣本(st,at,st+1)之間的相似程度為:
其中:d(st,j,st)為st,j和st之間的余弦距離;
基于上述采樣出樣本的探索程度以及它們與當前時刻樣本之間的相似程度,計算出采樣樣本探索程度的加權平均結果作為經過平滑后的內部獎勵,計算過程如下:
其中:分別為三種經過平滑后的探索程度估計值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010428975.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:非概率混合可靠度指數的去嵌套分析方法
- 下一篇:水性環氧涂料的制備方法





