[發明專利]基于好奇心機制的Rainbow智能體訓練方法在審
| 申請號: | 202210903501.5 | 申請日: | 2022-07-28 |
| 公開(公告)號: | CN115293361A | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 高天寒;朱珈慧;劉藝儒 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N3/04;G06N3/08 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 李珉 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 好奇心 機制 rainbow 智能 訓練 方法 | ||
1.一種基于好奇心機制的Rainbow智能體訓練方法,其特征在于:
將Rainbow智能體訓練的時間差分法TD的一步自舉換成多步自舉,構造Rainbow智能體訓練的目標函數;
定義Rainbow智能體訓練的多步損失函數;將通過多步自舉得到的損失與雙Q網絡結合,并使用目標函數評估智能體不同價值下的動作;
改變Rainbow智能體訓練時的優先體驗重放順序;
將DuelingDQN與分布式網絡結合作為Rainbow智能體網絡,對Rainbow智能體的網絡體系結構進行調整;
設計好奇心模塊,Rainbow智能體訓練中添加好奇心機制;
計算好奇心模塊中前向動力學模型預測誤差,并將其作為智能體訓練的內在獎勵,使智能體不斷去探索新的狀態。
2.根據權利要求1所述基于好奇心機制的Rainbow智能體訓練方法,其特征在于:
所述將Rainbow智能體訓練的時間差分法TD的一步自舉換成多步自舉,構造Rainbow智能體訓練的目標函數的具體方法為:
首先將Rainbow智能體訓練的時間差分法TD的一步自舉換成多步自舉,在時間差分的第零步TD(0)后進行多步采樣多步自舉;再通過將智能體的價值分布壓縮到第n步的價值St+n,并通過截取的n步折扣獎勵來構造智能體的目標函數。
3.根據權利要求2所述基于好奇心機制的Rainbow智能體訓練方法,其特征在于:所述構造Rainbow智能體訓練的目標函數如下公式所示:
其中,為t時刻內時間差分第n步的目標函數;z是智能體離散價值分布的支撐,其是原子atoms的集合;為截取的n步獎勵;為截取的n步折扣因子;表示在價值St+n時得到的動作對應的原子的概率。
4.根據權利要求2所述的基于好奇心機制的Rainbow智能體訓練方法,其特征在于:所述定義Rainbow智能體訓練的多步損失函數具體為:
使用KL散度去衡量兩個價值分布之間的距離,確定Rainbow智能體訓練的損失函數如下公式所示:
其中,DKL表示價值分布下的KL散度;dt為t時刻的目標函數;Φz為在智能體離散價值分布的支撐z上的投影。
5.根據權利要求4所述的基于好奇心機制的Rainbow智能體訓練方法,其特征在于:所述改變Rainbow智能體訓練時的優先體驗重放順序,具體為:
將所有智能體經驗樣本都根據KL散度計算出的損失來確定經驗的優先排序。
6.根據權利要求1所述的基于好奇心機制的Rainbow智能體訓練方法,其特征在于:所述將Dueling DQN與分布式網絡結合作為Rainbow智能體網絡,對Rainbow智能體的網絡體系結構進行調整,具體為:
分布式網絡使用參數化的離散分布來建立價值分布模型,分布的支撐是N個原子atoms的集合;在Rainbow智能體網絡中,價值流vη與優勢流aψ共享一個公共的卷積神經學習模塊fξ(s);設定Rainbow智能體網絡中卷積層的輸出是φ,則價值流vη的輸出是一個N維的向量Natoms,優勢流aψ的輸出是一個N×|A|的矩陣,A=Natoms×Nactions,Nactions表示分布式網絡輸出的矩陣有N行動作a,得到每個原子atoms所對應的狀態和動作概率如下公式所示:
其中,φ=fξ(s),表示對應于第m個原子的動作a的輸出,a′為狀態s所對應的動作,m=1,2,…,N;
最后將Rainbow智能體神經網絡中的所有線性層中的參數換成帶有分解的高斯噪聲的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210903501.5/1.html,轉載請聲明來源鉆瓜專利網。





