[發(fā)明專(zhuān)利]基于動(dòng)態(tài)模型與事后經(jīng)驗(yàn)回放的多目標(biāo)機(jī)器人控制方法有效

申請(qǐng)?zhí)枺?/td>	202011281615.8	申請(qǐng)日：	2020-11-16
公開(kāi)（公告）號(hào)：	CN112518742B	公開(kāi)（公告）日：	2022-01-25
發(fā)明（設(shè)計(jì)）人：	李秀;楊瑞;呂加飛;楊宇	申請(qǐng)（專(zhuān)利權(quán)）人：	清華大學(xué)深圳國(guó)際研究生院
主分類(lèi)號(hào)：	B25J9/16	分類(lèi)號(hào)：	B25J9/16;B25J13/00;G06F30/27;G06N7/00;G06F113/28
代理公司：	深圳新創(chuàng)友知識(shí)產(chǎn)權(quán)代理有限公司 44223	代理人：	江耀純
地址：	518055 廣東省深圳市***	國(guó)省代碼：	廣東;44
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	基于動(dòng)態(tài) 模型事后經(jīng)驗(yàn) 回放多目標(biāo) 機(jī)器人控制方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專(zhuān)利詞庫(kù) 專(zhuān)利權(quán)人專(zhuān)利榜在售專(zhuān)利公布日期熱門(mén)專(zhuān)利

【說(shuō)明書(shū)】：

本發(fā)明公開(kāi)了一種基于動(dòng)態(tài)模型與事后經(jīng)驗(yàn)回放的多目標(biāo)機(jī)器人控制方法，本發(fā)明能夠?qū)W習(xí)到完成整個(gè)目標(biāo)空間的策略，在泛化性上比現(xiàn)有方法更有優(yōu)勢(shì)；本發(fā)明通過(guò)基于模型的值函數(shù)估計(jì)和事后經(jīng)驗(yàn)回放提高了多目標(biāo)強(qiáng)化學(xué)習(xí)中的數(shù)據(jù)利用效率；相比其他離線值函數(shù)估計(jì)方法沒(méi)有離線偏差，雖然存在模型誤差，但是本發(fā)明通過(guò)單步與多步值函數(shù)估計(jì)的加權(quán)求和權(quán)衡了模型誤差和學(xué)習(xí)速度，具有更好的表現(xiàn)。

技術(shù)領(lǐng)域

本發(fā)明涉及機(jī)器人控制技術(shù)領(lǐng)域，尤其涉及一種基于動(dòng)態(tài)模型與事后經(jīng)驗(yàn)回放的多目標(biāo)機(jī)器人控制方法。

背景技術(shù)

強(qiáng)化學(xué)習(xí)：機(jī)器學(xué)習(xí)中的一類(lèi)方法，主要由智能體和環(huán)境兩部分組成。智能體根據(jù)當(dāng)前的狀態(tài)按照一定的策略(policy)執(zhí)行動(dòng)作并作用在環(huán)境中，環(huán)境接收到動(dòng)作后會(huì)返回新的狀態(tài)及一個(gè)獎(jiǎng)勵(lì)(reward)。

深度強(qiáng)化學(xué)習(xí)：將深度神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)進(jìn)行了結(jié)合，使得強(qiáng)化學(xué)習(xí)能夠有效解決大狀態(tài)空間、甚至連續(xù)狀態(tài)空間的復(fù)雜問(wèn)題，機(jī)器人控制就屬于連續(xù)狀態(tài)空間控制問(wèn)題。

多目標(biāo)強(qiáng)化學(xué)習(xí)：通常的強(qiáng)化學(xué)習(xí)是完成一個(gè)特定目標(biāo)，但是在機(jī)器人控制等問(wèn)題中常常存在大量目標(biāo)，比如移動(dòng)機(jī)械臂到空間中的任意位置，我們希望智能體能夠到達(dá)空間中的任意目標(biāo)，于是引入了多目標(biāo)強(qiáng)化學(xué)習(xí)。

離線策略算法：強(qiáng)化學(xué)習(xí)中一類(lèi)采集數(shù)據(jù)的動(dòng)作策略和更新的目標(biāo)策略不相同的方法，這一類(lèi)方法通常需要使用經(jīng)驗(yàn)回放技術(shù)，對(duì)數(shù)據(jù)利用效率高于在線策略算法，但是在多目標(biāo)連續(xù)控制問(wèn)題中，數(shù)據(jù)利用效率依然很低；

經(jīng)驗(yàn)回放：強(qiáng)化學(xué)習(xí)中離線策略算法的使用的一個(gè)技巧，使用一個(gè)經(jīng)驗(yàn)池來(lái)儲(chǔ)存智能體與環(huán)境交互產(chǎn)生的數(shù)據(jù)，訓(xùn)練策略時(shí)從經(jīng)驗(yàn)池中小批次采樣來(lái)訓(xùn)練策略網(wǎng)絡(luò)。

事后經(jīng)驗(yàn)回放：針對(duì)多目標(biāo)強(qiáng)化學(xué)習(xí)的方法，通過(guò)修改經(jīng)驗(yàn)池中數(shù)據(jù)的期望目標(biāo)為實(shí)際完成的目標(biāo)，極大的提高了對(duì)失敗數(shù)據(jù)的利用效率。

離線策略偏差：當(dāng)直接在離線策略算法中使用多步值函數(shù)估計(jì)的時(shí)候，由于行為策略和目標(biāo)策略存在差異，導(dǎo)致多步的經(jīng)驗(yàn)回放會(huì)帶來(lái)離線策略偏差的累積，可能會(huì)嚴(yán)重影響智能體的策略學(xué)習(xí)。

基于動(dòng)態(tài)模型的方法：強(qiáng)化學(xué)習(xí)中，已知環(huán)境的動(dòng)態(tài)模型或根據(jù)數(shù)據(jù)學(xué)習(xí)出環(huán)境的動(dòng)態(tài)模型的一類(lèi)方法。我們可以與動(dòng)態(tài)模型進(jìn)行交互，從而減小與環(huán)境的交互次數(shù)?；趧?dòng)態(tài)模型的方法存在的問(wèn)題是，當(dāng)動(dòng)態(tài)模型對(duì)真實(shí)環(huán)境擬合不足時(shí)，就會(huì)存在模型誤差，并且隨著交互步數(shù)累積，也可能對(duì)智能體的訓(xùn)練帶來(lái)危害。

多步方法：本專(zhuān)利中提到的多步方法是指對(duì)值函數(shù)做多步展開(kāi)，利用多步的累積折扣獎(jiǎng)勵(lì)對(duì)值函數(shù)做估計(jì)的方法，該方式相比單步方法偏差更小，通常收斂速度更快。

現(xiàn)有技術(shù)存在以下不足：

(1)現(xiàn)有技術(shù)通常對(duì)于完成一個(gè)特定任務(wù)需要訓(xùn)練一個(gè)策略網(wǎng)絡(luò)，泛化性不強(qiáng)，而我們的多目標(biāo)強(qiáng)化學(xué)習(xí)技術(shù)能同時(shí)訓(xùn)練大量目標(biāo)，一個(gè)模型就能夠完成一定目標(biāo)空間中的所有任務(wù)；

(2)現(xiàn)有技術(shù)沒(méi)有利用到事后經(jīng)驗(yàn)回放的信息，往往無(wú)法從失敗的數(shù)據(jù)中學(xué)習(xí)，而我們的技術(shù)利用了事后經(jīng)驗(yàn)回放來(lái)提高失敗數(shù)據(jù)的利用，加速了機(jī)器人任務(wù)的訓(xùn)練；

(3)現(xiàn)有技術(shù)沒(méi)有利用到基于模型的值函數(shù)展開(kāi)方法，往往使用單步的時(shí)序差分方法學(xué)習(xí)，而我們的技術(shù)能夠加速值函數(shù)的學(xué)習(xí)和智能體的訓(xùn)練；

(4)現(xiàn)有技術(shù)中的多步值函數(shù)估計(jì)方法在離線策略的情況下存在較大離線偏差，而本專(zhuān)利的方法由于使用了基于模型的值函數(shù)展開(kāi)，不存在離線偏差，但是存在一定模型誤差。

發(fā)明內(nèi)容

本發(fā)明目的就是為了彌補(bǔ)已有技術(shù)中多目標(biāo)強(qiáng)化學(xué)習(xí)機(jī)器人控制中數(shù)據(jù)利用效率低，需要海量數(shù)據(jù)訓(xùn)練的問(wèn)題缺陷，提供一種基于動(dòng)態(tài)模型與事后經(jīng)驗(yàn)回放的多目標(biāo)機(jī)器人控制方法，通過(guò)結(jié)合基于動(dòng)態(tài)模型的多步值函數(shù)展開(kāi)與事后經(jīng)驗(yàn)回放技術(shù)起到了顯著提高數(shù)據(jù)利用效率的效果。

本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的：

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于清華大學(xué)深圳國(guó)際研究生院，未經(jīng)清華大學(xué)深圳國(guó)際研究生院許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011281615.8/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

上一篇：基于密碼卡的數(shù)據(jù)處理方法、電子設(shè)備及存儲(chǔ)介質(zhì)
下一篇：一種麻醉科室用麻醉廢氣抽除裝置

同類(lèi)專(zhuān)利

專(zhuān)利分類(lèi)

B 作業(yè)；運(yùn)輸

B25 手動(dòng)工具；輕便機(jī)動(dòng)工具；手動(dòng)器械的手柄；車(chē)間設(shè)備；機(jī)械手
B25J 機(jī)械手；裝有操縱裝置的容器
B25J9-00 程序控制機(jī)械手
B25J9-02 .以臂的運(yùn)動(dòng)為特征的，例如直角坐標(biāo)型的
B25J9-06 .以多鉸接爪臂為特征的
B25J9-08 .以部件結(jié)構(gòu)為特征的
B25J9-10 .以機(jī)械手元件定位裝置為特征的
B25J9-16 .程序控制

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

滑坡模型實(shí)驗(yàn)?zāi)Ｐ图?/a>

專(zhuān)利文獻(xiàn)下載

說(shuō)明：

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū)；

2、支持發(fā)明專(zhuān)利、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利（升級(jí)中）；

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】