[發明專利]一種在強化學習中基于變分自動編碼器的內部激勵方法在審
| 申請號: | 202310247094.1 | 申請日: | 2023-03-15 |
| 公開(公告)號: | CN116306816A | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 曹俊豪;孔燕 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06N3/0464 | 分類號: | G06N3/0464;G06N3/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210044 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 強化 學習 基于 自動 編碼器 內部 激勵 方法 | ||
1.一種在強化學習中基于變分自動編碼器的內部激勵方法,其特征在于,包括以下步驟:
(1)對穿越熔巖迷宮環境信息進行預處理;
(2)利用Advantage?Actor-Critic構建深度強化學習框架;
(3)將狀態數據集輸入變分自動編碼器得到智能體對于狀態好奇度的度量,并將其定義為在潛在空間上后驗分布偏離先驗分布的程度;
(4)每經過N個時間步,訓練actor網絡和critic網絡,并返回累計獎勵Gt;
(5)在數據集D中,對被收集的狀態s上訓練變分自動編碼器;
(6)重新初始化數據集D,將狀態st插入數據集D中。并在MiniGrid平臺上進行可視化展示。
2.根據權利要求1所述的一種在強化學習中基于變分自動編碼器的內部激勵方法,其特征在于,所述步驟(1)具體為:
采集智能體在迷宮中的初始觀測值和初始狀態s0,形成數據集D。
3.根據權利要求1所述的一種在強化學習中基于變分自動編碼器的內部激勵方法,其特征在于,所述步驟(2)具體為:
在時間步t=0,1…T內,采取動作at,觀測下一狀態st+1和外部獎勵rextrinsic(st+1)。
4.根據權利要求1所述的一種在強化學習中基于變分自動編碼器的內部激勵方法,其特征在于,所述步驟(3)具體為:
(3.1)將狀態數據集輸入變分自動編碼器得到智能體對于狀態好奇度的度量,并將其定義為在潛在空間上后驗分布偏離先驗分布的程度,其公式如下:
其中L為損失函數,Z為潛在空間,S為狀態集合,pθ(Z|S)為狀態的后驗分布,為狀態的變分分布,W表示Wasserstein距離,p(Z)為狀態先驗分布;
(3.2)根據Wasserstein距離計算得出智能體處于該狀態的內部獎勵rintrinsic(st+1),即狀態的變分分布與狀態先驗分布之間的差距:
(3.3)將四元組(st+1,at,rextrinsic(st+1),rintrinsic(st+1))存儲到數據集D中。
5.根據權利要求1所述的一種在強化學習中基于變分自動編碼器的內部激勵方法,其特征在于,所述步驟(4)具體為:
每經過N個時間步,訓練actor網絡和critic網絡,并返回累計獎勵Gt:
式中,Gt為累計獎勵,rextrinsic(st+1)是在狀態st+1下的外部獎勵,β為折扣因子在0到1之間,W表示Wasserstein距離,p(Z)為狀態先驗分布,為狀態的變分分布。
6.一種計算機存儲介質,其上存儲有計算機程序,其特征在于,該計算機程序被處理器執行時實現如權利要求1-5中任一項所述的一種在強化學習中基于變分自動編碼器的內部激勵方法。
7.一種計算機設備,包括儲存器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1-5中任一項所述的一種在強化學習中基于變分自動編碼器的內部激勵方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310247094.1/1.html,轉載請聲明來源鉆瓜專利網。





