[發明專利]一種基于目標采樣的模仿學習方法在審
| 申請號: | 202210333460.0 | 申請日: | 2022-03-30 |
| 公開(公告)號: | CN114819060A | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 王勇;解永春;李林峰;陳奧;梁紅義 | 申請(專利權)人: | 北京控制工程研究所 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;B25J9/16 |
| 代理公司: | 中國航天科技專利中心 11009 | 代理人: | 程何 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 目標 采樣 模仿 學習方法 | ||
一種基于目標采樣的模仿學習方法,屬于人工智能技術領域。本發明包括網絡結構設計、參考軌跡生成及學習算法。通過把一個復雜任務的目標轉換為一系列容易訓練的子目標,并借助于模仿學習,大大降低復雜任務采用強化學習訓練的難度,有效解決了強化學習中具有稀疏reward特征的任務難以訓練的問題。
技術領域
本發明涉及一種基于目標采樣的模仿學習方法,屬于人工智能領域,用于提高訓練效率,加快訓練速度,解決強化學習中具有稀疏reward特征的任務難以訓練的問題。
背景技術
基于深度強化學習方法研究“自學習”空間操作機器人,是指賦予機器人自學習能力,通過“模仿”和自主訓練的方式訓練機器人掌握各種操作技能,從而解決困擾當前空間操作的非結構化環境、遙操作大時延等難題,是目前機器人領域的重要研究方向。
機器人自我訓練需要機器人通過反復試錯學習操作技能,對于一些reward函數稀疏的任務(在大量試錯中成功率極低),目前的深度強化學習算法如DDPG/TRPO/PPO等都很難收斂或需要大量的學習訓練時間。而在實際操作中很多任務都屬于這種類型,如插孔、擰螺絲等。
發明內容
本發明解決的技術問題是:克服現有技術的不足,提供了一種基于目標采樣的模仿學習方法,通過把一個復雜任務的目標轉換為一系列容易訓練的子目標,并借助于模仿學習,大大降低復雜任務采用強化學習訓練的難度,有效解決了強化學習中具有稀疏reward特征的任務難以訓練的問題。
本發明的技術解決方案是:一種基于目標采樣的模仿學習方法,包括:
參考軌跡設計:通過人工示教的方式遙控或拖動機械臂完成任務,并記錄機械臂的運動軌跡;所述運動軌跡包括機械臂關節角和角速度;
構建神經網絡;
執行基本算法流程;所述基本算法流程在強化學習的框架內,利用所述參考軌跡設計reward函數,并對所述神經網絡進行訓練。
進一步地,所述參考軌跡為τI={sk,k∈[0,T]};其中,sk表示控制對象在第k時刻的觀測狀態,T表示參考軌跡持續的時間間隔。
進一步地,所述基本算法流程包括:
子目標采樣及參考軌跡分段:根據任務特點把參考軌跡分成若干段,每段設定一個子目標,并依次進行訓練;
切換條件設計:根據任務特點設計每個子目標滿足的條件作為切換為下一個階段的判斷條件;
初始化:初始化網絡及其它相關變量;
子目標序列訓練:以第一個子目標為任務目標開始強化學習訓練,在滿足切換條件后,按照子目標序列依次進行其它子目標的訓練。
進一步地,所述子目標采樣的方法為:從參考軌跡τI中按照某一規則采樣序列點G=(g1,g2,…gm);其中gm為最終任務目標;
所述參考軌跡分段是指在子目標采樣的同時,按照子目標把整個參考軌跡τI分成m段,每段以該子目標為本段的任務目標。
進一步地,所述切換條件為由子目標gk(s)切換到gk+1(s)需要滿足的條件C(s,gk)∈C:S×S→R。
進一步地,所述初始化包括如下步驟:
隨機初始化策略網絡和價值網絡,設定當前仿真時間Tk=0,當前參考軌跡子目標g(s)=g0(s),并選擇一種on-policy強化學習算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京控制工程研究所,未經北京控制工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210333460.0/2.html,轉載請聲明來源鉆瓜專利網。





