日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專(zhuān)利]基于動(dòng)態(tài)模型與事后經(jīng)驗(yàn)回放的多目標(biāo)機(jī)器人控制方法有效

專(zhuān)利信息
申請(qǐng)?zhí)枺?/td> 202011281615.8 申請(qǐng)日: 2020-11-16
公開(kāi)(公告)號(hào): CN112518742B 公開(kāi)(公告)日: 2022-01-25
發(fā)明(設(shè)計(jì))人: 李秀;楊瑞;呂加飛;楊宇 申請(qǐng)(專(zhuān)利權(quán))人: 清華大學(xué)深圳國(guó)際研究生院
主分類(lèi)號(hào): B25J9/16 分類(lèi)號(hào): B25J9/16;B25J13/00;G06F30/27;G06N7/00;G06F113/28
代理公司: 深圳新創(chuàng)友知識(shí)產(chǎn)權(quán)代理有限公司 44223 代理人: 江耀純
地址: 518055 廣東省深圳市*** 國(guó)省代碼: 廣東;44
權(quán)利要求書(shū): 查看更多 說(shuō)明書(shū): 查看更多
摘要:
搜索關(guān)鍵詞: 基于 動(dòng)態(tài) 模型 事后 經(jīng)驗(yàn) 回放 多目標(biāo) 機(jī)器人 控制 方法
【說(shuō)明書(shū)】:

本發(fā)明公開(kāi)了一種基于動(dòng)態(tài)模型與事后經(jīng)驗(yàn)回放的多目標(biāo)機(jī)器人控制方法,本發(fā)明能夠?qū)W習(xí)到完成整個(gè)目標(biāo)空間的策略,在泛化性上比現(xiàn)有方法更有優(yōu)勢(shì);本發(fā)明通過(guò)基于模型的值函數(shù)估計(jì)和事后經(jīng)驗(yàn)回放提高了多目標(biāo)強(qiáng)化學(xué)習(xí)中的數(shù)據(jù)利用效率;相比其他離線值函數(shù)估計(jì)方法沒(méi)有離線偏差,雖然存在模型誤差,但是本發(fā)明通過(guò)單步與多步值函數(shù)估計(jì)的加權(quán)求和權(quán)衡了模型誤差和學(xué)習(xí)速度,具有更好的表現(xiàn)。

技術(shù)領(lǐng)域

本發(fā)明涉及機(jī)器人控制技術(shù)領(lǐng)域,尤其涉及一種基于動(dòng)態(tài)模型與事后經(jīng)驗(yàn)回放的多目標(biāo)機(jī)器人控制方法。

背景技術(shù)

強(qiáng)化學(xué)習(xí):機(jī)器學(xué)習(xí)中的一類(lèi)方法,主要由智能體和環(huán)境兩部分組成。智能體根據(jù)當(dāng)前的狀態(tài)按照一定的策略(policy)執(zhí)行動(dòng)作并作用在環(huán)境中,環(huán)境接收到動(dòng)作后會(huì)返回新的狀態(tài)及一個(gè)獎(jiǎng)勵(lì)(reward)。

深度強(qiáng)化學(xué)習(xí):將深度神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)進(jìn)行了結(jié)合,使得強(qiáng)化學(xué)習(xí)能夠有效解決大狀態(tài)空間、甚至連續(xù)狀態(tài)空間的復(fù)雜問(wèn)題,機(jī)器人控制就屬于連續(xù)狀態(tài)空間控制問(wèn)題。

多目標(biāo)強(qiáng)化學(xué)習(xí):通常的強(qiáng)化學(xué)習(xí)是完成一個(gè)特定目標(biāo),但是在機(jī)器人控制等問(wèn)題中常常存在大量目標(biāo),比如移動(dòng)機(jī)械臂到空間中的任意位置,我們希望智能體能夠到達(dá)空間中的任意目標(biāo),于是引入了多目標(biāo)強(qiáng)化學(xué)習(xí)。

離線策略算法:強(qiáng)化學(xué)習(xí)中一類(lèi)采集數(shù)據(jù)的動(dòng)作策略和更新的目標(biāo)策略不相同的方法,這一類(lèi)方法通常需要使用經(jīng)驗(yàn)回放技術(shù),對(duì)數(shù)據(jù)利用效率高于在線策略算法,但是在多目標(biāo)連續(xù)控制問(wèn)題中,數(shù)據(jù)利用效率依然很低;

經(jīng)驗(yàn)回放:強(qiáng)化學(xué)習(xí)中離線策略算法的使用的一個(gè)技巧,使用一個(gè)經(jīng)驗(yàn)池來(lái)儲(chǔ)存智能體與環(huán)境交互產(chǎn)生的數(shù)據(jù),訓(xùn)練策略時(shí)從經(jīng)驗(yàn)池中小批次采樣來(lái)訓(xùn)練策略網(wǎng)絡(luò)。

事后經(jīng)驗(yàn)回放:針對(duì)多目標(biāo)強(qiáng)化學(xué)習(xí)的方法,通過(guò)修改經(jīng)驗(yàn)池中數(shù)據(jù)的期望目標(biāo)為實(shí)際完成的目標(biāo),極大的提高了對(duì)失敗數(shù)據(jù)的利用效率。

離線策略偏差:當(dāng)直接在離線策略算法中使用多步值函數(shù)估計(jì)的時(shí)候,由于行為策略和目標(biāo)策略存在差異,導(dǎo)致多步的經(jīng)驗(yàn)回放會(huì)帶來(lái)離線策略偏差的累積,可能會(huì)嚴(yán)重影響智能體的策略學(xué)習(xí)。

基于動(dòng)態(tài)模型的方法:強(qiáng)化學(xué)習(xí)中,已知環(huán)境的動(dòng)態(tài)模型或根據(jù)數(shù)據(jù)學(xué)習(xí)出環(huán)境的動(dòng)態(tài)模型的一類(lèi)方法。我們可以與動(dòng)態(tài)模型進(jìn)行交互,從而減小與環(huán)境的交互次數(shù)?;趧?dòng)態(tài)模型的方法存在的問(wèn)題是,當(dāng)動(dòng)態(tài)模型對(duì)真實(shí)環(huán)境擬合不足時(shí),就會(huì)存在模型誤差,并且隨著交互步數(shù)累積,也可能對(duì)智能體的訓(xùn)練帶來(lái)危害。

多步方法:本專(zhuān)利中提到的多步方法是指對(duì)值函數(shù)做多步展開(kāi),利用多步的累積折扣獎(jiǎng)勵(lì)對(duì)值函數(shù)做估計(jì)的方法,該方式相比單步方法偏差更小,通常收斂速度更快。

現(xiàn)有技術(shù)存在以下不足:

(1)現(xiàn)有技術(shù)通常對(duì)于完成一個(gè)特定任務(wù)需要訓(xùn)練一個(gè)策略網(wǎng)絡(luò),泛化性不強(qiáng),而我們的多目標(biāo)強(qiáng)化學(xué)習(xí)技術(shù)能同時(shí)訓(xùn)練大量目標(biāo),一個(gè)模型就能夠完成一定目標(biāo)空間中的所有任務(wù);

(2)現(xiàn)有技術(shù)沒(méi)有利用到事后經(jīng)驗(yàn)回放的信息,往往無(wú)法從失敗的數(shù)據(jù)中學(xué)習(xí),而我們的技術(shù)利用了事后經(jīng)驗(yàn)回放來(lái)提高失敗數(shù)據(jù)的利用,加速了機(jī)器人任務(wù)的訓(xùn)練;

(3)現(xiàn)有技術(shù)沒(méi)有利用到基于模型的值函數(shù)展開(kāi)方法,往往使用單步的時(shí)序差分方法學(xué)習(xí),而我們的技術(shù)能夠加速值函數(shù)的學(xué)習(xí)和智能體的訓(xùn)練;

(4)現(xiàn)有技術(shù)中的多步值函數(shù)估計(jì)方法在離線策略的情況下存在較大離線偏差,而本專(zhuān)利的方法由于使用了基于模型的值函數(shù)展開(kāi),不存在離線偏差,但是存在一定模型誤差。

發(fā)明內(nèi)容

本發(fā)明目的就是為了彌補(bǔ)已有技術(shù)中多目標(biāo)強(qiáng)化學(xué)習(xí)機(jī)器人控制中數(shù)據(jù)利用效率低,需要海量數(shù)據(jù)訓(xùn)練的問(wèn)題缺陷,提供一種基于動(dòng)態(tài)模型與事后經(jīng)驗(yàn)回放的多目標(biāo)機(jī)器人控制方法,通過(guò)結(jié)合基于動(dòng)態(tài)模型的多步值函數(shù)展開(kāi)與事后經(jīng)驗(yàn)回放技術(shù)起到了顯著提高數(shù)據(jù)利用效率的效果。

本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于清華大學(xué)深圳國(guó)際研究生院,未經(jīng)清華大學(xué)深圳國(guó)際研究生院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202011281615.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

×

專(zhuān)利文獻(xiàn)下載

說(shuō)明:

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū);

2、支持發(fā)明專(zhuān)利 、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利(升級(jí)中);

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖技術(shù)構(gòu)造圖;

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專(zhuān)利網(wǎng)在線咨詢(xún)

周一至周五 9:00-18:00

咨詢(xún)?cè)诰€客服咨詢(xún)?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 欧美一区二区三区久久| 欧美日韩国产一二| 久久精品一二三四| 欧美一区二区三区激情| 亚洲高清毛片一区二区| 久久第一区| 日韩精品在线一区二区三区| 日韩午夜毛片| 欧美精品xxxxx| 一级午夜影院| 久久人做人爽一区二区三区小说| 国产精品伦一区二区三区级视频频| 国产精品对白刺激在线观看| 大伊人av| 国产一区正在播放| 欧美极品少妇xx高潮| 欧美日韩久久一区| 午夜精品一区二区三区在线播放| 欧美高清性xxxx| 亚洲w码欧洲s码免费| 日韩av在线播| 亚洲精品少妇久久久久| 97久久超碰国产精品红杏| 国产精品96久久久| 国产精品视频久久久久久久 | 狠狠色噜噜狠狠狠狠黑人| 亚洲国产另类久久久精品性| 国产精品黑色丝袜的老师| 性欧美1819sex性高播放| 91精品美女| 精品国精品国产自在久不卡| 色噜噜日韩精品欧美一区二区 | 欧美日韩精品在线一区二区| 国产欧美日韩在线观看| 一区二区三区电影在线观看| 欧美日韩一卡二卡| 欧美在线视频一二三区| 91夜夜夜| 国内揄拍国产精品| 国产精品美女久久久另类人妖| 精品福利一区| 欧美精品一区免费| 日韩一级在线视频| 国产视频一区二区在线| 久99久视频| 欧美一区二区三区白人| 中文字幕制服丝袜一区二区三区| 国产在线拍偷自揄拍视频| 国产欧美日韩一区二区三区四区| 国产一级片子| 久爱视频精品| 久久青草欧美一区二区三区| 91视频国产九色| 护士xxxx18一19| 狠狠躁狠狠躁视频专区| 国产免费区| 99视频国产在线| 福利片91| 韩漫无遮韩漫免费网址肉| 欧洲另类类一二三四区| 国产清纯白嫩初高生在线观看性色| 一本大道久久a久久精品| 色噜噜日韩精品欧美一区二区| 日本一二三四区视频| 久久激情网站| 亚洲精品久久久久玩吗| 欧美精品国产一区二区| 日本一区二区在线电影| 欧美精品在线观看视频| 丰满岳乱妇在线观看中字| freexxxxxxx| 美女直播一区二区三区| 国产日产欧美一区| 一区二区在线精品| 欧美一区二区三区激情| 亚洲午夜精品一区二区三区| 久久不卡一区| 国产精品美女久久久免费| 娇妻被又大又粗又长又硬好爽 | 久久免费视频一区| 中文字幕一区三区| 国产盗摄91精品一区二区三区 | 中文av一区| 日韩欧美高清一区| 国产日本欧美一区二区三区| 日日夜夜一区二区| 538国产精品| 国产一级大片| 福利片一区二区三区| 538国产精品一区二区在线| 午夜影院色| 一级午夜电影| 日韩av在线资源| 国产午夜精品一区二区三区视频| 高清国产一区二区| 久久九九亚洲| 亚洲第一区国产精品| 免费毛片a| 国产欧美日韩综合精品一| 久久一级精品视频| 国产91免费在线| 亚洲欧洲日韩av| 93精品国产乱码久久久| 久久久久久久亚洲视频| 麻豆91在线| 国产精品自拍在线| 色狠狠色狠狠综合| 欧美一级免费在线视频| 亚洲精品丝袜| 国产精品一二三区免费| 国产精品久久99| 久久久久久久亚洲国产精品87| 日韩午夜电影在线| 中文字幕一区二区三区不卡| 国产97久久| 99久久久国产精品免费调教网站| 国产精品亚洲精品| 国产理论片午午午伦夜理片2021 | 99国产伦精品一区二区三区 | 国产精品视频免费一区二区| 欧美一区二区综合| 国产伦精品一区二区三区免费优势| 欧美精品二区三区| 午夜激情综合网| 午夜电影毛片| 99re热精品视频国产免费| 欧美一区二三区人人喊爽| 欧美二区精品| 国产一区二区三区在线电影| 精品国产乱码一区二区三区在线| 一区二区三区在线观看国产| 欧美精品八区| 国产午夜一级一片免费播放| 国产精品三级久久久久久电影| 国产精品久久久久久亚洲调教| 亚洲精品一区,精品二区| 国产亚洲精品精品国产亚洲综合| 色一情一乱一乱一区免费网站 | 免费欧美一级视频| 国产欧美亚洲一区二区| 中文av一区| 亚洲精品一区,精品二区| 午夜电影理伦片2023在线观看| 国产一级片自拍| 亚洲视频精品一区| 久久一二区| 欧美日韩综合一区| 99er热精品视频国产| 午夜av电影院| 中文字幕一区2区3区| 国产精欧美一区二区三区久久久| 欧美freesex极品少妇| 国产天堂第一区| 狠狠色狠狠色合久久伊人| 国产第一区二区三区| 欧美日韩国产免费观看| 日韩国产精品久久| 国产欧美视频一区二区三区| 亚洲福利视频一区| 久久午夜无玛鲁丝片午夜精品| 日本一二三区电影| 欧美系列一区二区| 国产日韩欧美第一页| 亚洲天堂国产精品| 欧美日韩精品影院| 国产精品乱码一区| 欧美色图视频一区| 久久精品视频一区二区| 精品视频久| 日韩欧美一区二区在线视频| 国产麻豆一区二区三区在线观看| 午夜无遮挡| 国产91高清| 亚洲神马久久| 久久久精品中文| 国产精品一级片在线观看| 素人av在线| 亚洲精品一品区二品区三品区 | 日韩精品一区二区三区免费观看 | 99视频国产在线| 91夜夜夜| 国产麻豆一区二区三区在线观看| 国产1区2区视频| 国内久久久| free性欧美hd另类丰满| 亚洲精品日韩激情欧美| 久久久国产精品一区| 欧美在线播放一区| 国产精品久久99| 四季av中文字幕一区| 狠狠色很很在鲁视频| 国产精品入口麻豆九色| 国内自拍偷拍一区| 国产经典一区二区| 国产一区欧美一区| 亚洲国产精品美女| 91在线一区二区| 国产一级不卡毛片| 日本免费电影一区二区| 海量av在线| 69久久夜色精品国产69–| 毛片免费看看| 91精品黄色| 狠狠色狠狠色合久久伊人| 欧洲在线一区| 91波多野结衣| 欧美一区二粉嫩精品国产一线天| 日本护士hd高潮护士| 免费xxxx18美国| 美女张开腿黄网站免费| 日韩精品中文字幕在线播放| 亚洲区日韩| 国语对白一区二区三区| 日韩午夜毛片| 午夜影院91| 欧美日韩亚洲另类| 97人人澡人人爽人人模亚洲| 欧美三区二区一区| 午夜电影一区| 午夜特级片| 国产欧美日韩一级大片| 日韩精品免费一区二区夜夜嗨| 国产精品禁18久久久久久| 国产在线精品区| 国产激情视频一区二区| 日韩av在线免费电影| 亚洲精品一品区二品区三品区 | 国产精品视频一区二区在线观看| 久久综合伊人77777麻豆最新章节 一区二区久久精品66国产精品 | 一区二区国产精品| 日本一二区视频| 91一区二区三区久久国产乱| 欧美在线播放一区| 6080日韩午夜伦伦午夜伦| 国产一级片大全| 伊人av综合网| 国产一区二区三区大片| 91影视一区二区三区| 夜夜夜夜曰天天天天拍国产| 国产一区二区大片| 久久99国产视频| 欧美精品二区三区| 日本五十熟hd丰满| 国产视频1区2区| 国产一区二区三区网站| 综合久久一区二区三区|