[發明專利]一種在強化學習中基于變分自動編碼器的內部激勵方法在審
| 申請號: | 202310247094.1 | 申請日: | 2023-03-15 |
| 公開(公告)號: | CN116306816A | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 曹俊豪;孔燕 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06N3/0464 | 分類號: | G06N3/0464;G06N3/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210044 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 強化 學習 基于 自動 編碼器 內部 激勵 方法 | ||
本發明公開了一種在強化學習中基于變分自動編碼器的內部激勵方法,通過構建Advantage?Actor?Critic(A2C)深度強化學習框架并采用變分自動編碼器(VAE)將狀態空間投射到一個潛在空間,該空間將表示環境的內在結構;通過使用VAE容易地得到智能體對于狀態好奇度的度量,并將其定義為在潛在空間上后驗分布偏離先驗分布的程度。本發明所述方法為探索與利用困境提供了一種新的思路,保留了以往方法的優越性,也引入了新思路的先進性,對于探索與利用問題具有重要的參考意義;本發明提出的使用變分自動編碼對狀態進行編碼,對于何時進行探索何時進行利用進行了合理的設計,對于探索與利用這一經典問題具有重要的研究意義。
技術領域
本發明涉及強化學習與探索和利用問題,特別是一種在強化學習中基于變分自動編碼器的內部激勵方法。
背景技術
對于探索和利用何如平衡這個問題一直備受關注。在探索和利用之間不取得一個較好的平衡容易使智能體陷入局部最優。當智能體陷入局部最優策略,它只會注重眼前的獎勵而忽略更大的獎勵,會做出許多令人荒誕的決策,最終使得累計獎勵無法最大化。近年來越來越多的學者致力于解決這一問題。
對于傳統的ε-greedy方法的改進,比如Tokic等提出了基于值差異的自適應ε-greedy方法(VDBE),該方法通過控制與狀態相關的探索概率ε來擴展ε-greedy方法。在這項工作中,在智能體每次學習后使用基于價值函數估計的玻爾茲曼分布式方程獲得新的ε值。Alexandre等提出了一種自適應ε-greedy方法。該方法使用自適應技術的概念,通過判斷當前最高平均獎勵和以前最高平均獎勵之間的差異,并對差異進行數值正則化,最后判斷是否更新ε的值。
對于基于內在獎勵的算法,比如Bellemare等提出了基于計數的探索模型。該模型借鑒了UCB方法的思想,對每個狀態進行虛擬計數。為了鼓勵智能體獲得更高的獎勵,當智能體探索到新穎狀態時給予較高的內在獎勵,反之則給予較低的內在獎勵?;谏鲜瞿P?,Ostrovski等提出了基于計數的神經密度模型。該模型結合了PixelCNN模型證明密度模型的質量對探索的重要性,顯著的提高了算法性能。再比如Pathak等人提出了自我監督預測的好奇心驅動探索。該方法使用自監督的反向動態模型學習狀態空間編碼,通過反向動態模型捕獲智能體動作的狀態特征,利用當前狀態和下一個狀態特征進行計算并把狀態之差作為內在獎勵驅動智能體進行探索。Open?AI團隊的Burda等提出隨機網絡蒸餾,該工作靈活地結合了內部和外部獎勵。該方法使智能體在艱難探索的問題中取得了良好的表現。
發明內容
發明目的:本發明的目的是提供一種在強化學習中基于變分自動編碼器的內部激勵方法,從而解決傳統算法不能適用于高維狀態空間的問題。
技術方案:本發明所述的一種在強化學習中基于變分自動編碼器的內部激勵方法,包括以下步驟:
(1)對穿越熔巖迷宮環境信息進行預處理;
(2)利用Advantage?Actor-Critic構建深度強化學習框架;
(3)將狀態數據集輸入變分自動編碼器得到智能體對于狀態好奇度的度量,并將其定義為在潛在空間上后驗分布偏離先驗分布的程度;
(4)每經過N個時間步,訓練actor網絡和critic網絡,并返回累計獎勵Gt;
(5)在數據集D中,對被收集的狀態s上訓練變分自動編碼器;
(6)重新初始化數據集D,將狀態st插入數據集D中。并在MiniGrid平臺上進行可視化展示。
所述步驟(1)具體為:
采集智能體在迷宮中的初始觀測值和初始狀態s0,形成數據集D。
所述步驟(2)具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310247094.1/2.html,轉載請聲明來源鉆瓜專利網。





