[發明專利]一種基于模擬器訓練的機器人控制方法有效
| 申請號: | 201810054083.0 | 申請日: | 2018-01-19 |
| 公開(公告)號: | CN108255059B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 俞揚;張超;周志華 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 210008 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模擬器 訓練 機器人 控制 方法 | ||
1.一種基于模擬器訓練的機器人控制方法,其特征在于,包括以下步驟:
步驟1:對待執行任務環境進行仿真建模,建立模擬器,并針對任務設計構建強化學習四要素:狀態s、動作a、獎勵函數R(s,a)、狀態轉移概率P(s'|s,a);
步驟2:在模擬器中,隨機生成T個不同性能參數的機器人,并使用強化學習算法對各機器人分別進行訓練得到各自動作策略π作為基策略,最終得到基策略集和組合策略其中,w為權重系數;
步驟3:在模擬器中,另外隨機生成M個不同性能參數的機器人,并在此M個機器人中優化得到各機器人在執行任務時所使用的基策略集的最優組合權重隨后使此M個機器人均執行給定的一串初始隨機動作A,并將各機器人執行動作A后的輸出狀態作為特征Fi(A),將各機器人特征Fi(A)和最優組合權重分別作為回歸模型的輸入和標簽,優化得到最優的回歸模型θ,即
步驟4:在模擬器中,另外隨機生成N個不同性能參數的機器人,在這N個機器人上優化出最優動作
步驟5:在同一任務中,使未知的不同性能參數的機器人執行最優動作A*,得到該機器人的最優動作策略
2.如權利要求1所述的基于模擬器訓練的機器人控制方法,其特征在于,步驟2中所使用的強化學習算法采用信賴域策略優化算法,權重系數w的取值范圍為0~1。
3.如權利要求1所述的基于模擬器訓練的機器人控制方法,其特征在于,步驟3中所使用的基策略集的最優組合權重優化算法采用序列化隨機軸收縮算法,所使用的回歸模型優化算法采用梯度下降算法,給定的一串初始隨機動作A中包含5個動作。
4.如權利要求1所述的基于模擬器訓練的機器人控制方法,其特征在于,所述的步驟4中所使用的最優動作優化算法采用序列化隨機軸收縮算法,最優動作A*包含5個動作。
5.如權利要求1所述的基于模擬器訓練的機器人控制方法,其特征在于,步驟3中各機器人在執行任務時所使用的基策略集的最優組合權重其中,τ為機器人執行任務時的多個狀態-動作對(s0,a0,s1,a1,...,st,at)構成的軌跡,為機器人執行組合策略πw后產生軌跡τ的概率,R(τ)為軌跡τ上獲得的總獎勵。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810054083.0/1.html,轉載請聲明來源鉆瓜專利網。





