[發明專利]一種基于課程強化學習的機器人策略訓練系統及訓練方法在審
| 申請號: | 202211227150.7 | 申請日: | 2022-10-09 |
| 公開(公告)號: | CN115454096A | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 吳立剛;董博;王淼;王夏爽;姚蔚然;田昊宇;丁季時雨;孫科武;楊皙睿;孫光輝 | 申請(專利權)人: | 哈爾濱工業大學;中國航天科工集團第二研究院 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 哈爾濱華夏松花江知識產權代理有限公司 23213 | 代理人: | 岳昕 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 課程 強化 學習 機器人 策略 訓練 系統 方法 | ||
一種基于課程強化學習的機器人策略訓練系統及訓練方法,它屬于無人系統自主決策與控制領域。本發明解決了現有方法在針對于機器人的策略訓練方面難以獲得好的決策與控制效果的問題。本發明針對異構多機器人不同類型的任務模式,以復雜環境的動力學模型為輸入,構建基于課程學習的多機器人聯合任務決策課程學習訓練架構。考慮訓練過程中任務難度的循序漸進,建立基于復雜環境動力學模型的參數自主生成算法和目標自主生成算法。然后在此基礎上,建立課程難度評估與標校算法,反饋給自優化強化學習算法。本發明方法可以應用于無人系統的自主決策與控制。
技術領域
本發明屬于無人系統自主決策與控制領域,具體涉及一種基于課程強化學習的機器人策略訓練系統及訓練方法。
背景技術
多機器人自主決策是近年來學者研究的熱點問題之一,在軍事、工業等領域都有著廣泛的應用。其中自主決策策略的訓練往往通過機器學習實現。課程學習是在強化學習的基礎上借鑒了人類由易到難學習的想法,模型先學習容易的樣本,然后逐步提高樣本難度,可以得到更高的訓練速度與更好的訓練效果。課程學習的核心在于訓練任務的自主生成,和任務難度的自主排序。關于任務自主生成的研究目前比較有限,提出的方法有無監督的方式訓練逐步通用化的問題求解器;以最終任務為模板設定參數向量,調節參數以獲得中間任務。但是現有的任務自主生成方法在針對機器人策略訓練任務生成方面的有效性較差。關于任務難度的自主排序的主流方法有僅考慮對最終任務的樣本進行重新排序,而不改變任務本身;改變MDP某些方面來創造出具有不同MDP結構的中間任務;考慮人類對任務難易度的評估,利用人在環路的方法進行排序。但是采用現有自主排序方法所獲得的排序結果的準確性欠佳,而且部分現有的自主排序方法是和任務生成結合在一起的,并不適用于針對于機器人的策略訓練。
因此,綜上所述,現有的任務自主生成方法和現有的自主排序方法在針對于機器人的策略訓練方面表現欠佳,難以獲得較好的決策與控制效果。
發明內容
本發明的目的是為解決由于現有的任務自主生成方法在針對機器人策略訓練任務生成方面的有效性差以及現有自主排序方法所獲得的排序結果的準確性差,導致現有方法在針對于機器人的策略訓練方面難以獲得好的決策與控制效果的問題,而提出的一種基于課程強化學習的機器人策略訓練系統及訓練方法。
本發明為解決上述技術問題所采取的技術方案是:
基于本發明的一個方面,一種基于課程強化學習的機器人策略訓練系統,所述系統包括算法運行容器模塊、訓練課程生成模塊和反饋評價模塊,其中:
所述訓練課程生成模塊分為任務生成器和任務比較器兩部分,任務生成器用于自主生成課程任務場景;任務比較器用于通過神經網絡對任務進行困難度由易到難的排序,獲得課程;
所述算法運行容器模塊用于為目標識別算法、機器人路徑規劃算法以及博弈對抗決策算法配置運行容器,以根據訓練課程生成模塊獲得的課程對目標識別算法、機器人路徑規劃算法以及博弈對抗決策算法進行自優化的強化學習算法訓練;
所述反饋評價模塊用于根據機器人的訓練誤差進行機器人自組織強化訓練,并根據機器人自組織強化訓練結果輸出機器人對于任務執行情況的評分,再將機器人對于任務執行情況的評分反饋給算法運行容器模塊以指導自優化的強化學習算法訓練。
進一步地,所述目標識別算法為YOLOv3算法,機器人路徑規劃算法為人工勢場算法,博弈對抗決策算法為PPO算法。
基于本發明的另一個方面,一種基于課程強化學習的機器人策略訓練方法,所述方法具體包括以下步驟:
步驟一、利用任務生成器進行真實場景三維檢測重建以及任務場景智能環境自主生成;
步驟二、利用任務排序器對任務場景進行從易到難的排序獲得訓練課程;
步驟三、算法運行容器模塊中的目標識別算法、機器人路徑規劃算法以及博弈對抗決策算法基于步驟二生成的訓練課程進行自優化的強化學習訓練;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學;中國航天科工集團第二研究院,未經哈爾濱工業大學;中國航天科工集團第二研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211227150.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種污水處理池浮泥渣集邊收集結構
- 下一篇:一種接地扁鐵手動冷彎裝置





