[發(fā)明專(zhuān)利]一種基于深度強(qiáng)化學(xué)習(xí)的四足機(jī)器人模仿運(yùn)動(dòng)控制方法有效

申請(qǐng)?zhí)枺?/td>	202110408992.1	申請(qǐng)日：	2021-04-16
公開(kāi)（公告）號(hào)：	CN113156892B	公開(kāi)（公告）日：	2022-04-08
發(fā)明（設(shè)計(jì)）人：	王紀(jì)龍;么慶豐;魏震宇;王東林	申請(qǐng)（專(zhuān)利權(quán)）人：	西湖大學(xué)
主分類(lèi)號(hào)：	G05B19/414	分類(lèi)號(hào)：	G05B19/414
代理公司：	杭州求是專(zhuān)利事務(wù)所有限公司 33200	代理人：	賈玉霞
地址：	310024 浙江省***	國(guó)省代碼：	浙江;33
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于深度強(qiáng)化學(xué)習(xí) 機(jī)器人模仿運(yùn)動(dòng) 控制方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專(zhuān)利詞庫(kù) 專(zhuān)利權(quán)人專(zhuān)利榜在售專(zhuān)利公布日期熱門(mén)專(zhuān)利

【說(shuō)明書(shū)】：

本發(fā)明公開(kāi)一種基于深度強(qiáng)化學(xué)習(xí)的四足機(jī)器人模仿運(yùn)動(dòng)控制方法，該方法首先采用基于深度學(xué)習(xí)的視頻特征提取網(wǎng)絡(luò)提取動(dòng)物運(yùn)動(dòng)視頻中的運(yùn)動(dòng)關(guān)鍵節(jié)點(diǎn)信息，利用X11時(shí)序分析方法消除動(dòng)物運(yùn)動(dòng)節(jié)點(diǎn)信息中的角度偏移和噪聲，從中提取出動(dòng)物運(yùn)動(dòng)特征的周期性規(guī)律；再將其作為先驗(yàn)信息構(gòu)建基于演員?評(píng)論框架的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)，通過(guò)網(wǎng)絡(luò)來(lái)學(xué)習(xí)對(duì)應(yīng)的比例縮放系數(shù)，實(shí)現(xiàn)視頻中動(dòng)物與對(duì)應(yīng)四足機(jī)器人的尺寸匹配，最后將優(yōu)化的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)部署到真實(shí)的四足機(jī)器人中，該深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)根據(jù)當(dāng)前四足機(jī)器人的狀態(tài)以及對(duì)應(yīng)模仿動(dòng)作規(guī)律輸出相應(yīng)的關(guān)節(jié)角度位置，實(shí)現(xiàn)四足機(jī)器人的模仿運(yùn)動(dòng)控制。本發(fā)明的方法具備良好的環(huán)境泛化效果以及控制穩(wěn)定性。

技術(shù)領(lǐng)域

本發(fā)明涉及智能足式機(jī)器人領(lǐng)域，具體涉及一種基于深度強(qiáng)化學(xué)習(xí)的四足機(jī)器人模仿運(yùn)動(dòng)控制方法。

背景技術(shù)

四足機(jī)器人相對(duì)其他形式的移動(dòng)機(jī)器人，移動(dòng)中具有獨(dú)立的落足點(diǎn)，可以根據(jù)地形和任務(wù)的特點(diǎn)改變步態(tài)，其更加適用于在不平整、崎嶇地形以及上下樓梯等復(fù)雜環(huán)境下作業(yè)，具備更好的環(huán)境適應(yīng)能力。然而，四足機(jī)器人的運(yùn)動(dòng)規(guī)劃具有很大的挑戰(zhàn)性。它必須考慮大量的時(shí)變因素，才能從大的動(dòng)作空間中尋找出最優(yōu)的控制決策。深度強(qiáng)化學(xué)習(xí)是一種新型控制方法。在深度強(qiáng)化學(xué)習(xí)中，代表動(dòng)作策略的神經(jīng)網(wǎng)絡(luò)通過(guò)與環(huán)境不斷交互實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)的更新，在訓(xùn)練過(guò)程中學(xué)習(xí)如何從環(huán)境中獲得最大的累積獎(jiǎng)勵(lì)。然而，基于深度強(qiáng)化學(xué)習(xí)的四足機(jī)器人控制策略無(wú)法有效權(quán)衡復(fù)雜環(huán)境探索能力與機(jī)身穩(wěn)定性，同時(shí)上層控制決策方案與底層的控制執(zhí)行器之間的配合無(wú)法直接有效地配合。因此，從現(xiàn)實(shí)動(dòng)物中學(xué)習(xí)步態(tài)是一個(gè)可行的方案，深度學(xué)習(xí)具有很強(qiáng)的對(duì)視頻圖像的識(shí)別能力，廣泛應(yīng)用于人臉，車(chē)輛識(shí)別等場(chǎng)景，并且在動(dòng)物識(shí)別的研究中取得了良好的效果。

發(fā)明內(nèi)容

針對(duì)現(xiàn)有技術(shù)的不足，本發(fā)明提出一種基于深度強(qiáng)化學(xué)習(xí)的四足機(jī)器人模仿運(yùn)動(dòng)控制方法，主要幫助四足機(jī)器人僅依靠不同動(dòng)物視頻信息模仿學(xué)習(xí)不同步態(tài)的能力。

本發(fā)明的目的通過(guò)如下的技術(shù)方案來(lái)實(shí)現(xiàn)：

一種基于深度強(qiáng)化學(xué)習(xí)的四足機(jī)器人模仿運(yùn)動(dòng)控制方法，該方法包括如下步驟：

步驟一：采用基于深度學(xué)習(xí)的視頻特征提取網(wǎng)絡(luò)提取動(dòng)物運(yùn)動(dòng)視頻中相關(guān)動(dòng)物的運(yùn)動(dòng)節(jié)點(diǎn)的關(guān)鍵信息；

步驟二：利用X11時(shí)序分析方法消除所述步驟一中提取的動(dòng)物運(yùn)動(dòng)節(jié)點(diǎn)信息中的角度偏移，并從中提取中動(dòng)物運(yùn)動(dòng)特征的周期性規(guī)律；

步驟三：構(gòu)建基于演員-評(píng)論算法的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)，并設(shè)置具有四足機(jī)器人的虛擬仿真環(huán)境，將步驟二提取的動(dòng)物運(yùn)動(dòng)特征的周期性規(guī)律作為先驗(yàn)信息輸入所述的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中，設(shè)置獎(jiǎng)勵(lì)函數(shù)、訓(xùn)練條件，通過(guò)在仿真中模擬四足機(jī)器人與環(huán)境的交互運(yùn)動(dòng)，不斷訓(xùn)練深度強(qiáng)化學(xué)習(xí)控制網(wǎng)絡(luò)，使虛擬仿真環(huán)境中的四足機(jī)器人具備快速模仿動(dòng)物視頻中運(yùn)動(dòng)的能力，從而對(duì)所述深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí)，訓(xùn)練結(jié)束后得到優(yōu)化的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)；

步驟四：將優(yōu)化后的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)部署到真實(shí)的四足機(jī)器人的控制系統(tǒng)中，所述優(yōu)化后的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)將結(jié)合當(dāng)前四足機(jī)器人的狀態(tài)與模仿動(dòng)作輸出對(duì)應(yīng)的關(guān)節(jié)角度位置，從而模仿所述動(dòng)物運(yùn)動(dòng)視頻中相關(guān)動(dòng)物的運(yùn)動(dòng)。

進(jìn)一步地，為了激勵(lì)四足機(jī)器人以合理的速度和姿態(tài)進(jìn)行動(dòng)物模仿運(yùn)動(dòng)，所述深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)函數(shù)r為

r＝0.08r_lin+0.02r_ang+0.03r_body

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于西湖大學(xué)，未經(jīng)西湖大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110408992.1/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

上一篇：一種鉆孔機(jī)
下一篇：一種基于參考圖像的暈影校正方法、系統(tǒng)、裝置及介質(zhì)

同類(lèi)專(zhuān)利

專(zhuān)利分類(lèi)

G 物理

G05 控制；調(diào)節(jié)
G05B 一般的控制或調(diào)節(jié)系統(tǒng)；這種系統(tǒng)的功能單元；用于這種系統(tǒng)或單元的監(jiān)視或測(cè)試裝置
G05B19-00 程序控制系統(tǒng)
G05B19-02 .電的
G05B19-43 .流體的
G05B19-44 ..氣動(dòng)的
G05B19-46 ..液壓的
G05B19-04 ..除數(shù)字控制外的程序控制，即順序控制器或邏輯控制器

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

專(zhuān)利文獻(xiàn)下載

說(shuō)明：

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū)；

2、支持發(fā)明專(zhuān)利、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利（升級(jí)中）；

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】