日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于目標采樣的模仿學習方法在審

專利信息
申請號: 202210333460.0 申請日: 2022-03-30
公開(公告)號: CN114819060A 公開(公告)日: 2022-07-29
發明(設計)人: 王勇;解永春;李林峰;陳奧;梁紅義 申請(專利權)人: 北京控制工程研究所
主分類號: G06N3/04 分類號: G06N3/04;G06N3/08;B25J9/16
代理公司: 中國航天科技專利中心 11009 代理人: 程何
地址: 100080 *** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 目標 采樣 模仿 學習方法
【說明書】:

一種基于目標采樣的模仿學習方法,屬于人工智能技術領域。本發明包括網絡結構設計、參考軌跡生成及學習算法。通過把一個復雜任務的目標轉換為一系列容易訓練的子目標,并借助于模仿學習,大大降低復雜任務采用強化學習訓練的難度,有效解決了強化學習中具有稀疏reward特征的任務難以訓練的問題。

技術領域

本發明涉及一種基于目標采樣的模仿學習方法,屬于人工智能領域,用于提高訓練效率,加快訓練速度,解決強化學習中具有稀疏reward特征的任務難以訓練的問題。

背景技術

基于深度強化學習方法研究“自學習”空間操作機器人,是指賦予機器人自學習能力,通過“模仿”和自主訓練的方式訓練機器人掌握各種操作技能,從而解決困擾當前空間操作的非結構化環境、遙操作大時延等難題,是目前機器人領域的重要研究方向。

機器人自我訓練需要機器人通過反復試錯學習操作技能,對于一些reward函數稀疏的任務(在大量試錯中成功率極低),目前的深度強化學習算法如DDPG/TRPO/PPO等都很難收斂或需要大量的學習訓練時間。而在實際操作中很多任務都屬于這種類型,如插孔、擰螺絲等。

發明內容

本發明解決的技術問題是:克服現有技術的不足,提供了一種基于目標采樣的模仿學習方法,通過把一個復雜任務的目標轉換為一系列容易訓練的子目標,并借助于模仿學習,大大降低復雜任務采用強化學習訓練的難度,有效解決了強化學習中具有稀疏reward特征的任務難以訓練的問題。

本發明的技術解決方案是:一種基于目標采樣的模仿學習方法,包括:

參考軌跡設計:通過人工示教的方式遙控或拖動機械臂完成任務,并記錄機械臂的運動軌跡;所述運動軌跡包括機械臂關節角和角速度;

構建神經網絡;

執行基本算法流程;所述基本算法流程在強化學習的框架內,利用所述參考軌跡設計reward函數,并對所述神經網絡進行訓練。

進一步地,所述參考軌跡為τI={sk,k∈[0,T]};其中,sk表示控制對象在第k時刻的觀測狀態,T表示參考軌跡持續的時間間隔。

進一步地,所述基本算法流程包括:

子目標采樣及參考軌跡分段:根據任務特點把參考軌跡分成若干段,每段設定一個子目標,并依次進行訓練;

切換條件設計:根據任務特點設計每個子目標滿足的條件作為切換為下一個階段的判斷條件;

初始化:初始化網絡及其它相關變量;

子目標序列訓練:以第一個子目標為任務目標開始強化學習訓練,在滿足切換條件后,按照子目標序列依次進行其它子目標的訓練。

進一步地,所述子目標采樣的方法為:從參考軌跡τI中按照某一規則采樣序列點G=(g1,g2,…gm);其中gm為最終任務目標;

所述參考軌跡分段是指在子目標采樣的同時,按照子目標把整個參考軌跡τI分成m段,每段以該子目標為本段的任務目標。

進一步地,所述切換條件為由子目標gk(s)切換到gk+1(s)需要滿足的條件C(s,gk)∈C:S×S→R。

進一步地,所述初始化包括如下步驟:

隨機初始化策略網絡和價值網絡,設定當前仿真時間Tk=0,當前參考軌跡子目標g(s)=g0(s),并選擇一種on-policy強化學習算法。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京控制工程研究所,未經北京控制工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202210333460.0/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 亚洲一区二区福利视频| 日韩av一二三四区| 男女无遮挡xx00动态图120秒| 国产区一区| 国产欧美性| 精品福利一区| 国产伦理久久精品久久久久| 国产在线拍揄自揄拍| 免费91麻豆精品国产自产在线观看| 精品99在线视频| 视频一区二区中文字幕| 国产精品亚洲精品| 黄毛片在线观看| 国模精品免费看久久久| 一区二区久久精品| 国产69精品久久久久男男系列| 亚洲精品乱码久久久久久蜜糖图片| 欧美高清性xxxxhdvideos| 少妇厨房与子伦免费观看| 97国产婷婷综合在线视频,| 久久精品入口九色| 91精品美女| 日韩精品久久一区二区三区| 岛国黄色网址| 国内精品国产三级国产99| 国产麻豆一区二区三区精品| 欧美激情精品久久久久久免费| 亚洲国产日韩综合久久精品| 99视频国产在线| 国产69精品久久久久男男系列| 天堂av色婷婷一区二区三区| 欧美日韩精品在线一区| 久99久精品| 国产精品一区二区在线观看 | 中文字幕另类日韩欧美亚洲嫩草| 91波多野结衣| 狠狠操很很干| 91国偷自产一区二区介绍| 日本午夜精品一区二区三区| 91麻豆产精品久久久| 欧洲亚洲国产一区二区三区| 午夜激情影院| 久久综合国产精品| 亚洲精品一区中文字幕| 国产suv精品一区二区4| 四虎国产永久在线精品| 精品国产一区二区三区四区vr| 国产二区三区视频| 精品国产乱码久久久久久久久| 欧美午夜看片在线观看字幕| 久久精品视频3| 午夜老司机电影| 国产伦精品一区二区三区免| 狠狠色狠狠色88综合日日91 | 国产一级片一区二区| 高清国产一区二区| 日韩精品在线一区二区三区| 狠狠色噜噜狠狠狠狠米奇7777| 日韩av在线播| 久久91久久久久麻豆精品| 国产无套精品久久久久久| 国久久久久久| 国产精品久久久久久久新郎| www色视频岛国| 午夜免费网址| 久久精品爱爱视频| 99爱国产精品| 夜夜嗨av一区二区三区中文字幕 | 久久中文一区二区| 91国产一区二区| 国产精品综合一区二区三区| 中文字幕一区2区3区| 欧美一区二区三区在线视频观看| 蜜臀久久精品久久久用户群体| 国产一区在线免费观看| 99精品视频免费看| 国产91丝袜在线熟| 日韩精品免费一区二区中文字幕 | 狠狠色噜噜狠狠狠狠奇米777| 一区二区精品在线| 欧美在线视频一区二区三区| 97人人澡人人添人人爽超碰|