[發(fā)明專(zhuān)利]基于動(dòng)態(tài)模型與事后經(jīng)驗(yàn)回放的多目標(biāo)機(jī)器人控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011281615.8 | 申請(qǐng)日: | 2020-11-16 |
| 公開(kāi)(公告)號(hào): | CN112518742B | 公開(kāi)(公告)日: | 2022-01-25 |
| 發(fā)明(設(shè)計(jì))人: | 李秀;楊瑞;呂加飛;楊宇 | 申請(qǐng)(專(zhuān)利權(quán))人: | 清華大學(xué)深圳國(guó)際研究生院 |
| 主分類(lèi)號(hào): | B25J9/16 | 分類(lèi)號(hào): | B25J9/16;B25J13/00;G06F30/27;G06N7/00;G06F113/28 |
| 代理公司: | 深圳新創(chuàng)友知識(shí)產(chǎn)權(quán)代理有限公司 44223 | 代理人: | 江耀純 |
| 地址: | 518055 廣東省深圳市*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 動(dòng)態(tài) 模型 事后 經(jīng)驗(yàn) 回放 多目標(biāo) 機(jī)器人 控制 方法 | ||
本發(fā)明公開(kāi)了一種基于動(dòng)態(tài)模型與事后經(jīng)驗(yàn)回放的多目標(biāo)機(jī)器人控制方法,本發(fā)明能夠?qū)W習(xí)到完成整個(gè)目標(biāo)空間的策略,在泛化性上比現(xiàn)有方法更有優(yōu)勢(shì);本發(fā)明通過(guò)基于模型的值函數(shù)估計(jì)和事后經(jīng)驗(yàn)回放提高了多目標(biāo)強(qiáng)化學(xué)習(xí)中的數(shù)據(jù)利用效率;相比其他離線值函數(shù)估計(jì)方法沒(méi)有離線偏差,雖然存在模型誤差,但是本發(fā)明通過(guò)單步與多步值函數(shù)估計(jì)的加權(quán)求和權(quán)衡了模型誤差和學(xué)習(xí)速度,具有更好的表現(xiàn)。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器人控制技術(shù)領(lǐng)域,尤其涉及一種基于動(dòng)態(tài)模型與事后經(jīng)驗(yàn)回放的多目標(biāo)機(jī)器人控制方法。
背景技術(shù)
強(qiáng)化學(xué)習(xí):機(jī)器學(xué)習(xí)中的一類(lèi)方法,主要由智能體和環(huán)境兩部分組成。智能體根據(jù)當(dāng)前的狀態(tài)按照一定的策略(policy)執(zhí)行動(dòng)作并作用在環(huán)境中,環(huán)境接收到動(dòng)作后會(huì)返回新的狀態(tài)及一個(gè)獎(jiǎng)勵(lì)(reward)。
深度強(qiáng)化學(xué)習(xí):將深度神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)進(jìn)行了結(jié)合,使得強(qiáng)化學(xué)習(xí)能夠有效解決大狀態(tài)空間、甚至連續(xù)狀態(tài)空間的復(fù)雜問(wèn)題,機(jī)器人控制就屬于連續(xù)狀態(tài)空間控制問(wèn)題。
多目標(biāo)強(qiáng)化學(xué)習(xí):通常的強(qiáng)化學(xué)習(xí)是完成一個(gè)特定目標(biāo),但是在機(jī)器人控制等問(wèn)題中常常存在大量目標(biāo),比如移動(dòng)機(jī)械臂到空間中的任意位置,我們希望智能體能夠到達(dá)空間中的任意目標(biāo),于是引入了多目標(biāo)強(qiáng)化學(xué)習(xí)。
離線策略算法:強(qiáng)化學(xué)習(xí)中一類(lèi)采集數(shù)據(jù)的動(dòng)作策略和更新的目標(biāo)策略不相同的方法,這一類(lèi)方法通常需要使用經(jīng)驗(yàn)回放技術(shù),對(duì)數(shù)據(jù)利用效率高于在線策略算法,但是在多目標(biāo)連續(xù)控制問(wèn)題中,數(shù)據(jù)利用效率依然很低;
經(jīng)驗(yàn)回放:強(qiáng)化學(xué)習(xí)中離線策略算法的使用的一個(gè)技巧,使用一個(gè)經(jīng)驗(yàn)池來(lái)儲(chǔ)存智能體與環(huán)境交互產(chǎn)生的數(shù)據(jù),訓(xùn)練策略時(shí)從經(jīng)驗(yàn)池中小批次采樣來(lái)訓(xùn)練策略網(wǎng)絡(luò)。
事后經(jīng)驗(yàn)回放:針對(duì)多目標(biāo)強(qiáng)化學(xué)習(xí)的方法,通過(guò)修改經(jīng)驗(yàn)池中數(shù)據(jù)的期望目標(biāo)為實(shí)際完成的目標(biāo),極大的提高了對(duì)失敗數(shù)據(jù)的利用效率。
離線策略偏差:當(dāng)直接在離線策略算法中使用多步值函數(shù)估計(jì)的時(shí)候,由于行為策略和目標(biāo)策略存在差異,導(dǎo)致多步的經(jīng)驗(yàn)回放會(huì)帶來(lái)離線策略偏差的累積,可能會(huì)嚴(yán)重影響智能體的策略學(xué)習(xí)。
基于動(dòng)態(tài)模型的方法:強(qiáng)化學(xué)習(xí)中,已知環(huán)境的動(dòng)態(tài)模型或根據(jù)數(shù)據(jù)學(xué)習(xí)出環(huán)境的動(dòng)態(tài)模型的一類(lèi)方法。我們可以與動(dòng)態(tài)模型進(jìn)行交互,從而減小與環(huán)境的交互次數(shù)?;趧?dòng)態(tài)模型的方法存在的問(wèn)題是,當(dāng)動(dòng)態(tài)模型對(duì)真實(shí)環(huán)境擬合不足時(shí),就會(huì)存在模型誤差,并且隨著交互步數(shù)累積,也可能對(duì)智能體的訓(xùn)練帶來(lái)危害。
多步方法:本專(zhuān)利中提到的多步方法是指對(duì)值函數(shù)做多步展開(kāi),利用多步的累積折扣獎(jiǎng)勵(lì)對(duì)值函數(shù)做估計(jì)的方法,該方式相比單步方法偏差更小,通常收斂速度更快。
現(xiàn)有技術(shù)存在以下不足:
(1)現(xiàn)有技術(shù)通常對(duì)于完成一個(gè)特定任務(wù)需要訓(xùn)練一個(gè)策略網(wǎng)絡(luò),泛化性不強(qiáng),而我們的多目標(biāo)強(qiáng)化學(xué)習(xí)技術(shù)能同時(shí)訓(xùn)練大量目標(biāo),一個(gè)模型就能夠完成一定目標(biāo)空間中的所有任務(wù);
(2)現(xiàn)有技術(shù)沒(méi)有利用到事后經(jīng)驗(yàn)回放的信息,往往無(wú)法從失敗的數(shù)據(jù)中學(xué)習(xí),而我們的技術(shù)利用了事后經(jīng)驗(yàn)回放來(lái)提高失敗數(shù)據(jù)的利用,加速了機(jī)器人任務(wù)的訓(xùn)練;
(3)現(xiàn)有技術(shù)沒(méi)有利用到基于模型的值函數(shù)展開(kāi)方法,往往使用單步的時(shí)序差分方法學(xué)習(xí),而我們的技術(shù)能夠加速值函數(shù)的學(xué)習(xí)和智能體的訓(xùn)練;
(4)現(xiàn)有技術(shù)中的多步值函數(shù)估計(jì)方法在離線策略的情況下存在較大離線偏差,而本專(zhuān)利的方法由于使用了基于模型的值函數(shù)展開(kāi),不存在離線偏差,但是存在一定模型誤差。
發(fā)明內(nèi)容
本發(fā)明目的就是為了彌補(bǔ)已有技術(shù)中多目標(biāo)強(qiáng)化學(xué)習(xí)機(jī)器人控制中數(shù)據(jù)利用效率低,需要海量數(shù)據(jù)訓(xùn)練的問(wèn)題缺陷,提供一種基于動(dòng)態(tài)模型與事后經(jīng)驗(yàn)回放的多目標(biāo)機(jī)器人控制方法,通過(guò)結(jié)合基于動(dòng)態(tài)模型的多步值函數(shù)展開(kāi)與事后經(jīng)驗(yàn)回放技術(shù)起到了顯著提高數(shù)據(jù)利用效率的效果。
本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于清華大學(xué)深圳國(guó)際研究生院,未經(jīng)清華大學(xué)深圳國(guó)際研究生院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011281615.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 動(dòng)態(tài)矢量譯碼方法和動(dòng)態(tài)矢量譯碼裝置
- 動(dòng)態(tài)口令的顯示方法及動(dòng)態(tài)令牌
- 動(dòng)態(tài)庫(kù)管理方法和裝置
- 動(dòng)態(tài)令牌的身份認(rèn)證方法及裝置
- 令牌、動(dòng)態(tài)口令生成方法、動(dòng)態(tài)口令認(rèn)證方法及系統(tǒng)
- 一種動(dòng)態(tài)模糊控制系統(tǒng)
- 一種基于動(dòng)態(tài)信號(hào)的POS機(jī)和安全保護(hù)方法
- 圖像動(dòng)態(tài)展示的方法、裝置、系統(tǒng)及介質(zhì)
- 一種基于POS機(jī)聚合碼功能分離顯示動(dòng)態(tài)聚合碼的系統(tǒng)
- 基于動(dòng)態(tài)口令的身份認(rèn)證方法、裝置和動(dòng)態(tài)令牌





