[發明專利]基于動態模型與事后經驗回放的多目標機器人控制方法有效
| 申請號: | 202011281615.8 | 申請日: | 2020-11-16 |
| 公開(公告)號: | CN112518742B | 公開(公告)日: | 2022-01-25 |
| 發明(設計)人: | 李秀;楊瑞;呂加飛;楊宇 | 申請(專利權)人: | 清華大學深圳國際研究生院 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16;B25J13/00;G06F30/27;G06N7/00;G06F113/28 |
| 代理公司: | 深圳新創友知識產權代理有限公司 44223 | 代理人: | 江耀純 |
| 地址: | 518055 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 動態 模型 事后 經驗 回放 多目標 機器人 控制 方法 | ||
1.一種基于動態模型與事后經驗回放的多目標機器人控制方法,其特征在于:具體方法如下:
S1、設定多目標強化學習參數;所述的多目標強化學習參數具體如下:
將強化學習表示為馬爾可夫決策過程MDP,MDP包含了五元組(S,A,R,P,γ),其中S代表狀態空間,A代表動作空間,R代表獎勵函數,P代表狀態轉移概率矩陣,γ代表折扣因子;智能體每個時刻觀測到狀態st,根據狀態執行動作αt,環境接收到動作后轉移到下一個狀態st+1并反饋獎勵rt,強化學習優化的目標是最大化累積獎勵值智能體根據策略π(αt|st)選擇動作;
S2、在多目標強化學習的參數設定下,得到確定性策略梯度算法Actor和Critic的損失函數Lactor和Lcritic;具體如下:
確定性策略梯度算法DDPG基于Actor Gritic架構,Gritic部分對狀態動作進行評估,Actor部分即為選擇動作的策略,在多目標強化學習的設定下,Actor、Gritic的損失函數Lactor,Lcritic分別為:
where Qtarget=rt+γQ(st+1,π(st+1,g),g)
其中g代表目標空間中的一個目標;
S3、建立動態模型,基于動態模型與單步值函數估計和多步值函數展開來加速多目標強化學習訓練;包括:
首先根據交互數據訓練一個環境的動態模型來最小化下一狀態估計誤差:
然后從某個狀態動作對出發,利用策略與動態模型進行交互,產生新的數據其中狀態s由M計算,獎勵r由獎勵函數計算,使用單步值函數估計和多步值函數展開的加權平均,帶權的具有以下形式:
其中α是可以調節的參數;
S4、利用事后經驗回放技術,在多目標強化學習中,將失敗經歷的目標替換為實際完成的目標。
2.根據權利要求1所述的一種基于動態模型與事后經驗回放的多目標機器人控制方法,其特征在于:動作值函數其中Q(st,αt)代表在狀態st執行動作αt后的期望累積獎勵。
3.根據權利要求2所述的一種基于動態模型與事后經驗回放的多目標機器人控制方法,其特征在于:多目標強化學習中,智能體的策略和獎勵函數都受到目標g的調節,獎勵函數、值函數、策略具有以下表示:r(st,αt,g),Q(st,αt,g),π(st,g);使用成功與否來設置獎勵函數,即完成目標獎勵為0,未完成目標獎勵為-1,用φ表示狀態到目標的映射,∈表示設定達到目標的閾值,獎勵函數表示為
4.根據權利要求1所述的一種基于動態模型與事后經驗回放的多目標機器人控制方法,其特征在于:當α接近0時,接近于單步的展開,此時是沒有模型誤差的但是學習速度較慢,當α增加的時候,包含更多的值函數展開信息,但同時帶來更多偏差,因此α起到權衡基于模型的多步信息和模型偏差的作用。
5.根據權利要求1所述的一種基于動態模型與事后經驗回放的多目標機器人控制方法,其特征在于:通過調節α和步數n加速智能體的訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學深圳國際研究生院,未經清華大學深圳國際研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011281615.8/1.html,轉載請聲明來源鉆瓜專利網。





