[發(fā)明專(zhuān)利]一種基于深度強(qiáng)化學(xué)習(xí)的四足機(jī)器人模仿運(yùn)動(dòng)控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110408992.1 | 申請(qǐng)日: | 2021-04-16 |
| 公開(kāi)(公告)號(hào): | CN113156892B | 公開(kāi)(公告)日: | 2022-04-08 |
| 發(fā)明(設(shè)計(jì))人: | 王紀(jì)龍;么慶豐;魏震宇;王東林 | 申請(qǐng)(專(zhuān)利權(quán))人: | 西湖大學(xué) |
| 主分類(lèi)號(hào): | G05B19/414 | 分類(lèi)號(hào): | G05B19/414 |
| 代理公司: | 杭州求是專(zhuān)利事務(wù)所有限公司 33200 | 代理人: | 賈玉霞 |
| 地址: | 310024 浙江省*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強(qiáng)化 學(xué)習(xí) 機(jī)器人 模仿 運(yùn)動(dòng) 控制 方法 | ||
本發(fā)明公開(kāi)一種基于深度強(qiáng)化學(xué)習(xí)的四足機(jī)器人模仿運(yùn)動(dòng)控制方法,該方法首先采用基于深度學(xué)習(xí)的視頻特征提取網(wǎng)絡(luò)提取動(dòng)物運(yùn)動(dòng)視頻中的運(yùn)動(dòng)關(guān)鍵節(jié)點(diǎn)信息,利用X11時(shí)序分析方法消除動(dòng)物運(yùn)動(dòng)節(jié)點(diǎn)信息中的角度偏移和噪聲,從中提取出動(dòng)物運(yùn)動(dòng)特征的周期性規(guī)律;再將其作為先驗(yàn)信息構(gòu)建基于演員?評(píng)論框架的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),通過(guò)網(wǎng)絡(luò)來(lái)學(xué)習(xí)對(duì)應(yīng)的比例縮放系數(shù),實(shí)現(xiàn)視頻中動(dòng)物與對(duì)應(yīng)四足機(jī)器人的尺寸匹配,最后將優(yōu)化的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)部署到真實(shí)的四足機(jī)器人中,該深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)根據(jù)當(dāng)前四足機(jī)器人的狀態(tài)以及對(duì)應(yīng)模仿動(dòng)作規(guī)律輸出相應(yīng)的關(guān)節(jié)角度位置,實(shí)現(xiàn)四足機(jī)器人的模仿運(yùn)動(dòng)控制。本發(fā)明的方法具備良好的環(huán)境泛化效果以及控制穩(wěn)定性。
技術(shù)領(lǐng)域
本發(fā)明涉及智能足式機(jī)器人領(lǐng)域,具體涉及一種基于深度強(qiáng)化學(xué)習(xí)的四足機(jī)器人模仿運(yùn)動(dòng)控制方法。
背景技術(shù)
四足機(jī)器人相對(duì)其他形式的移動(dòng)機(jī)器人,移動(dòng)中具有獨(dú)立的落足點(diǎn),可以根據(jù)地形和任務(wù)的特點(diǎn)改變步態(tài),其更加適用于在不平整、崎嶇地形以及上下樓梯等復(fù)雜環(huán)境下作業(yè),具備更好的環(huán)境適應(yīng)能力。然而,四足機(jī)器人的運(yùn)動(dòng)規(guī)劃具有很大的挑戰(zhàn)性。它必須考慮大量的時(shí)變因素,才能從大的動(dòng)作空間中尋找出最優(yōu)的控制決策。深度強(qiáng)化學(xué)習(xí)是一種新型控制方法。在深度強(qiáng)化學(xué)習(xí)中,代表動(dòng)作策略的神經(jīng)網(wǎng)絡(luò)通過(guò)與環(huán)境不斷交互實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)的更新,在訓(xùn)練過(guò)程中學(xué)習(xí)如何從環(huán)境中獲得最大的累積獎(jiǎng)勵(lì)。然而,基于深度強(qiáng)化學(xué)習(xí)的四足機(jī)器人控制策略無(wú)法有效權(quán)衡復(fù)雜環(huán)境探索能力與機(jī)身穩(wěn)定性,同時(shí)上層控制決策方案與底層的控制執(zhí)行器之間的配合無(wú)法直接有效地配合。因此,從現(xiàn)實(shí)動(dòng)物中學(xué)習(xí)步態(tài)是一個(gè)可行的方案,深度學(xué)習(xí)具有很強(qiáng)的對(duì)視頻圖像的識(shí)別能力,廣泛應(yīng)用于人臉,車(chē)輛識(shí)別等場(chǎng)景,并且在動(dòng)物識(shí)別的研究中取得了良好的效果。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提出一種基于深度強(qiáng)化學(xué)習(xí)的四足機(jī)器人模仿運(yùn)動(dòng)控制方法,主要幫助四足機(jī)器人僅依靠不同動(dòng)物視頻信息模仿學(xué)習(xí)不同步態(tài)的能力。
本發(fā)明的目的通過(guò)如下的技術(shù)方案來(lái)實(shí)現(xiàn):
一種基于深度強(qiáng)化學(xué)習(xí)的四足機(jī)器人模仿運(yùn)動(dòng)控制方法,該方法包括如下步驟:
步驟一:采用基于深度學(xué)習(xí)的視頻特征提取網(wǎng)絡(luò)提取動(dòng)物運(yùn)動(dòng)視頻中相關(guān)動(dòng)物的運(yùn)動(dòng)節(jié)點(diǎn)的關(guān)鍵信息;
步驟二:利用X11時(shí)序分析方法消除所述步驟一中提取的動(dòng)物運(yùn)動(dòng)節(jié)點(diǎn)信息中的角度偏移,并從中提取中動(dòng)物運(yùn)動(dòng)特征的周期性規(guī)律;
步驟三:構(gòu)建基于演員-評(píng)論算法的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),并設(shè)置具有四足機(jī)器人的虛擬仿真環(huán)境,將步驟二提取的動(dòng)物運(yùn)動(dòng)特征的周期性規(guī)律作為先驗(yàn)信息輸入所述的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中,設(shè)置獎(jiǎng)勵(lì)函數(shù)、訓(xùn)練條件,通過(guò)在仿真中模擬四足機(jī)器人與環(huán)境的交互運(yùn)動(dòng),不斷訓(xùn)練深度強(qiáng)化學(xué)習(xí)控制網(wǎng)絡(luò),使虛擬仿真環(huán)境中的四足機(jī)器人具備快速模仿動(dòng)物視頻中運(yùn)動(dòng)的能力,從而對(duì)所述深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí),訓(xùn)練結(jié)束后得到優(yōu)化的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò);
步驟四:將優(yōu)化后的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)部署到真實(shí)的四足機(jī)器人的控制系統(tǒng)中,所述優(yōu)化后的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)將結(jié)合當(dāng)前四足機(jī)器人的狀態(tài)與模仿動(dòng)作輸出對(duì)應(yīng)的關(guān)節(jié)角度位置,從而模仿所述動(dòng)物運(yùn)動(dòng)視頻中相關(guān)動(dòng)物的運(yùn)動(dòng)。
進(jìn)一步地,為了激勵(lì)四足機(jī)器人以合理的速度和姿態(tài)進(jìn)行動(dòng)物模仿運(yùn)動(dòng),所述深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)函數(shù)r為
r=0.08rlin+0.02rang+0.03rbody
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于西湖大學(xué),未經(jīng)西湖大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110408992.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 根據(jù)用戶(hù)學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線(xiàn)上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





