[發明專利]減少過估計的模型化強化學習機器人控制方法及系統有效
| 申請號: | 202110757340.9 | 申請日: | 2021-07-05 |
| 公開(公告)號: | CN113419424B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 李秀;賈若楠 | 申請(專利權)人: | 清華大學深圳國際研究生院 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 北京紀凱知識產權代理有限公司 11245 | 代理人: | 孫楠 |
| 地址: | 518071 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 減少 估計 模型 強化 學習 機器人 控制 方法 系統 | ||
1.一種減少過估計的模型化強化學習機器人控制方法,其特征在于,包括:
步驟1、初始化環境和各網絡參數;
步驟2、利用與真實環境的交互數據訓練環境模型;
步驟3、利用策略網絡πφ與訓練后的環境模型交互,將交互數據存放在數據存放器Dmodel中;
步驟4、根據環境模型,采用Actor-Critic方法進行策略訓練,其中Critic評估方法采用帶有方差懲罰項的評估方式,估計值根據權重λ進行調節;
步驟5、重復執行步驟2至步驟4,直至收斂;
所述步驟4中,訓練方法包括以下步驟:
步驟41、Critic部分對狀態動作進行評估,Actor部分為選擇動作的策略;
Critic的損失函數JQ(ψi)為:
其中,Var表示方差;智能體每個時刻觀測到狀態為st,根據當前狀態由策略π產生一個動作at;
Actor部分的損失函數Jπ(φ)為:
其中,dπ表示在策略π下狀態的平穩分布;
步驟42、更新Q函數網絡和策略網絡的參數,并每隔預先設定時間更新Q-target函數網絡參數;
更新方法為:
其中,ψi表示第i個Q網絡參數,表示第i個Q-target函數網絡參數,φ表示策略網絡參數,表示對JQ的參數ψ求梯度,表示對Jπ的參數φ求梯度,ω,ωπ和ωQ分別相應的更新步長。
2.如權利要求1所述強化學習機器人控制方法,其特征在于,所述步驟1中,初始化構建策略網絡πφ,Q函數網絡{Qψ1,Qψ2},Q-target函數網絡及環境模型以及構建真實環境的數據存放器Denv←φ和預測環境模型的數據存放器Dmodel←φ。
3.如權利要求1所述強化學習機器人控制方法,其特征在于,所述步驟2中,環境模型的訓練方法包括以下步驟:
步驟21、利用策略πφ與真實環境交互,將交互數據存放在真實環境的數據存放器Denv;
步驟22、通過極大似然的損失函數訓練環境預測模型。
4.如權利要求3所述強化學習機器人控制方法,其特征在于,所述步驟22中,根據環境模型訓練損失函數LML得到N個環境模型的更新方式為:
式中,θi表示第i個環境模型的網絡參數,ωL表示更新步長的調節因子,表示對LML的θ求梯度。
5.如權利要求4所述強化學習機器人控制方法,其特征在于,所述環境模型訓練損失函數LML為:
式中,T表示矩陣的轉置操作,μθ表示參數為θ的均值向量,sn表示第n個模型所處的狀態信息,an表示第n個模型所處的動作信息,det表示計算矩陣的行列式。
6.如權利要求1所述強化學習機器人控制方法,其特征在于,所述步驟5中,收斂條件為:與環境交互的次數大于預先設定的數值。
7.一種減少過估計的模型化強化學習機器人控制系統,其特征在于,包括:初始化模塊、環境模型訓練模塊、數據交互模塊、策略訓練模塊和收斂模塊;
所述初始化模塊,用于初始化環境和各網絡參數;
所述環境模型訓練模塊,利用與真實環境的交互數據訓練環境模型;
所述數據交互模塊,利用策略網絡πφ與訓練后的環境模型交互,將交互數據存放在數據存放器Dmodel中;
所述策略訓練模塊,根據環境模型,采用Actor-Critic方法進行策略訓練,其中Critic評估方法采用帶有方差懲罰項的評估方式,估計值根據權重λ進行調節;
所述收斂模塊,重復執行所述環境模型訓練模塊、所述數據交互模塊和所述策略訓練模塊,直至收斂;
所述策略訓練模塊中,訓練方法包括以下步驟:
步驟41、Critic部分對狀態動作進行評估,Actor部分為選擇動作的策略;
Critic的損失函數JQ(ψi)為:
其中,Var表示方差;智能體每個時刻觀測到狀態為st,根據當前狀態由策略π產生一個動作at;
Actor部分的損失函數Jπ(φ)為:
其中,dπ表示在策略π下狀態的平穩分布;
步驟42、更新Q函數網絡和策略網絡的參數,并每隔預先設定時間更新Q-target函數網絡參數;
更新方法為:
其中,ψi表示第i個Q網絡參數,表示第i個Q-target函數網絡參數,φ表示策略網絡參數,表示對JQ的參數ψ求梯度,表示對Jπ的參數φ求梯度,ω,ωπ和ωQ分別相應的更新步長。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學深圳國際研究生院,未經清華大學深圳國際研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110757340.9/1.html,轉載請聲明來源鉆瓜專利網。





