[發(fā)明專利]基于好奇心機制的Rainbow智能體訓練方法在審
| 申請?zhí)枺?/td> | 202210903501.5 | 申請日: | 2022-07-28 |
| 公開(公告)號: | CN115293361A | 公開(公告)日: | 2022-11-04 |
| 發(fā)明(設(shè)計)人: | 高天寒;朱珈慧;劉藝儒 | 申請(專利權(quán))人: | 東北大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N3/04;G06N3/08 |
| 代理公司: | 沈陽東大知識產(chǎn)權(quán)代理有限公司 21109 | 代理人: | 李珉 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 好奇心 機制 rainbow 智能 訓練 方法 | ||
本發(fā)明提供一種基于好奇心機制的Rainbow智能體訓練方法,涉及深度強化學習技術(shù)領(lǐng)域。該方法首先將Rainbow智能體訓練的時間差分法TD的一步自舉換成多步自舉,并構(gòu)造Rainbow智能體訓練的目標函數(shù);再定義Rainbow智能體訓練的多步損失函數(shù),將通過多步自舉得到的損失與雙Q網(wǎng)絡結(jié)合,并使用目標函數(shù)評估智能體不同價值下的動作;然后改變Rainbow智能體訓練時的優(yōu)先體驗重放順序;將DuelingDQN與分布式網(wǎng)絡結(jié)合作為Rainbow智能體網(wǎng)絡,對Rainbow智能體的網(wǎng)絡體系結(jié)構(gòu)進行調(diào)整;最后設(shè)計好奇心模塊,在Rainbow智能體訓練中添加好奇心機制,計算好奇心模塊中前向動力學模型預測誤差,并將其作為智能體訓練的內(nèi)在獎勵,使智能體不斷去探索新的狀態(tài)。
技術(shù)領(lǐng)域
本發(fā)明涉及深度強化學習技術(shù)領(lǐng)域,尤其涉及一種基于好奇心機制的Rainbow智能體訓練方法。
背景技術(shù)
深度強化學習是深度學習與強化學習的結(jié)合。深度學習具有較強的感知能力,但是缺乏一定的決策能力;而強化學習具有決策能力,對感知問題束手無策。深度學習是學習樣本數(shù)據(jù)的內(nèi)在規(guī)律和表現(xiàn)層次,它的最終目標是機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等數(shù)據(jù)。強化學習是機器學習的一個分支,它最大的特點就是在交互中學習,智能體在與環(huán)境的交互中根據(jù)獲得的獎勵或懲罰不斷地學習。兩者優(yōu)勢互補,為復雜系統(tǒng)的感知決策問題提供了解決思路。
智能體訓練就是將學習看作是一個試探過程。智能體在環(huán)境中獲取狀態(tài),之后利用該狀態(tài)選擇一個動作,一個決策。環(huán)境接受該決策之后,就會輸出下一個狀態(tài)以及當前決策所得到的獎勵。選擇的決策不僅會影響當前的獎勵,還會影響下一次的狀態(tài)和最終的獎勵。智能體的目的就是在環(huán)境中盡可能獲得最大的獎勵。
深度Q學習網(wǎng)絡(Deep Q Network,即DQN),作為深度強化學習的開山之作,DeepMind首次提出了深度強化學習這一概念,并且提出了DQN算法。他們首次將深度神經(jīng)網(wǎng)絡與強化學習進行了結(jié)合,實現(xiàn)從感知到動作的端到端學習,在多種Atari游戲中達到了超人的水平,深度強化學習從此成為深度學習領(lǐng)域的前沿研究方向。但傳統(tǒng)的DQN算法還存在著諸多問題,例如:目標Q值會被過高估計;不同樣本的重要性不同,隨機采樣方式未必完全適用;卷積神經(jīng)網(wǎng)絡的結(jié)構(gòu)存在局限性;DQN訓練效率太慢等問題。
除此之外,強化學習還依賴于精心設(shè)計的外部環(huán)境獎勵,人工設(shè)計的密集獎勵對于任意環(huán)境來說是無法擴展的。但實際中,智能體的外部獎勵是及其稀疏且容易錯過的,因為只有當智能體在成功達到預先制定的目標狀態(tài)時才會收到更新的強化策略。當外部獎勵很少時,智能體盲目的探索會導致大量時間資源的消耗,從而導致訓練效率的低下。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是針對上述現(xiàn)有技術(shù)的不足,提供一種基于好奇心機制的Rainbow智能體訓練方法,實現(xiàn)對智能體的訓練。
為解決上述技術(shù)問題,本發(fā)明所采取的技術(shù)方案是:基于好奇心機制的Rainbow智能體訓練方法,
將Rainbow智能體訓練的時間差分法TD的一步自舉換成多步自舉,構(gòu)造Rainbow智能體訓練的目標函數(shù);
定義Rainbow智能體訓練的多步損失函數(shù);將通過多步自舉得到的損失與雙Q網(wǎng)絡結(jié)合,并使用目標函數(shù)評估智能體不同價值下的動作;
改變Rainbow智能體訓練時的優(yōu)先體驗重放順序;
將Dueling DQN與分布式網(wǎng)絡結(jié)合作為Rainbow智能體網(wǎng)絡,對Rainbow智能體的網(wǎng)絡體系結(jié)構(gòu)進行調(diào)整;
設(shè)計好奇心模塊,Rainbow智能體訓練中添加好奇心機制;
計算好奇心模塊中前向動力學模型預測誤差,并將其作為智能體訓練的內(nèi)在獎勵,使智能體不斷去探索新的狀態(tài);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東北大學,未經(jīng)東北大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210903501.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





