[發明專利]減少過估計的模型化強化學習機器人控制方法及系統有效
| 申請號: | 202110757340.9 | 申請日: | 2021-07-05 |
| 公開(公告)號: | CN113419424B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 李秀;賈若楠 | 申請(專利權)人: | 清華大學深圳國際研究生院 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 北京紀凱知識產權代理有限公司 11245 | 代理人: | 孫楠 |
| 地址: | 518071 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 減少 估計 模型 強化 學習 機器人 控制 方法 系統 | ||
本發明涉及一種減少過估計的模型化強化學習機器人控制方法及系統,其包括:初始化環境和各網絡參數;利用與真實環境的交互數據訓練環境模型;利用策略網絡πsubgt;φ/subgt;與訓練后的環境模型交互,將交互數據存放在數據存放器Dsubgt;model/subgt;中;根據環境模型,采用Actor?Critic方法進行策略訓練,其中Critic評估方法采用帶有方差懲罰項的評估方式,估計值根據權重λ進行調節;重復執行,直至收斂。本發明能解決策略退化的問題,緩解值函數的過估計問題。本發明可以廣泛在機器人控制領域中應用。
技術領域
本發明涉及一種機器人控制領域,特別是關于一種減少過估計的模型化強化學習機器人控制方法及系統。
背景技術
深度強化學習具有一定的自主學習能力,無需給定先驗知識,只需與環境進行不斷交互,最終通過訓練找到適合當前狀態的最優策略,進而獲得整個決策過程的最大累積獎勵回報。根據智能體對交互環境信息的利用方法,強化學習可分為無模型強化學習和模型化強化學習兩大類。無模型強化學習方法是智能體不斷探索環境,不斷試錯,通常需要大量訓練樣本及訓練時間,才能保證智能體滿足一定要求。模型化強化學習方法首先需要對環境建模,得到環境模型后,此類方法無需與真實環境交互,可直接利用學得的環境模型生成所需訓練樣本進行策略學習,從而在一定程度上緩解樣本利用率低及學習效率低的問題。另外,如果所學得的環境模型足夠精確,智能體就可根據該模型在其從未訪問過的區域進行策略搜索。然而,學得的環境模型與真實環境間往往存在模型誤差,難以保證算法的最優解漸近收斂。
另外,強化學習中基于值函數估計的算法往往會由于大規模的動作值過估計而出現不穩定和效果不佳等現象的存在,而導致過估計的主要原因來自于最大化值函數max逼近,該過程目標是為了最大的累計期望獎勵,而在這個過程中產生了正向偏差。
在值函數強化學習的機器人控制領域,現有相關技術中的基于多重目標神經網絡的強化學習值函數更新方法中,提出基于多重目標神經網絡的強化學習值函數更新方法,使得減少值函數估計過程中的過估計誤差,從而得到最終策略。但是該現有技術存在以下缺陷:(1)使用無模型的強化學習方法,使得算法采樣效率偏低。(2)采用基于值函數的強化學習方法,會存在策略退化問題,即值函數估計準確,但通過值函數得到的策略仍然不是最優。(3)使用多重目標神經網絡估計值函數的方式,造成值函數的計算較為復雜,對計算資源消耗較大。
發明內容
針對上述問題,本發明的目的是提供一種減少過估計的模型化強化學習機器人控制方法及系統,其能解決策略退化的問題,緩解值函數的過估計問題。
為實現上述目的,本發明采取以下技術方案:一種減少過估計的模型化強化學習機器人控制方法,其包括:步驟1、初始化環境和各網絡參數;步驟2、利用與真實環境的交互數據訓練環境模型;步驟3、利用策略網絡πφ與訓練后的環境模型交互,將交互數據存放在數據存放器Dmodel中;步驟4、根據環境模型,采用Actor-Critic方法進行策略訓練,其中Critic評估方法采用帶有方差懲罰項的評估方式,估計值根據權重λ進行調節;步驟5、重復執行步驟2至步驟4,直至收斂。
進一步,所述步驟1中,初始化構建策略網絡πφ,Q函數網絡{Qψ1,Qψ2},Q-target函數網絡及環境模型以及構建真實環境的數據存放器Denv←φ和預測環境模型的數據存放器Dmodel←φ。
進一步,所述步驟2中,環境模型的訓練方法包括以下步驟:
步驟21、利用策略πφ與真實環境交互,將交互數據存放在真實環境的數據存放器Denv;
步驟22、通過極大似然的損失函數訓練環境預測模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學深圳國際研究生院,未經清華大學深圳國際研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110757340.9/2.html,轉載請聲明來源鉆瓜專利網。





