[發明專利]一種基于深度強化學習的四足機器人模仿運動控制方法有效
| 申請號: | 202110408992.1 | 申請日: | 2021-04-16 |
| 公開(公告)號: | CN113156892B | 公開(公告)日: | 2022-04-08 |
| 發明(設計)人: | 王紀龍;么慶豐;魏震宇;王東林 | 申請(專利權)人: | 西湖大學 |
| 主分類號: | G05B19/414 | 分類號: | G05B19/414 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 賈玉霞 |
| 地址: | 310024 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 機器人 模仿 運動 控制 方法 | ||
1.一種基于深度強化學習的四足機器人模仿運動控制方法,其特征在于,該方法包括如下步驟:
步驟一:采用基于深度學習的視頻特征提取網絡提取動物運動視頻中相關動物的運動節點的關鍵信息;
步驟二:利用X11時序分析方法消除所述步驟一中提取的動物運動節點信息中的角度偏移,并從中提取動物運動特征的周期性規律;
步驟三:構建基于演員-評論算法的深度強化學習網絡,并設置具有四足機器人的虛擬仿真環境,將步驟二提取的動物運動特征的周期性規律作為先驗信息輸入所述的深度強化學習網絡中,設置獎勵函數、訓練條件,通過在仿真中模擬四足機器人與環境的交互運動,不斷訓練深度強化學習網絡,使虛擬仿真環境中的四足機器人具備快速模仿動物視頻中運動的能力,從而對所述深度強化學習網絡進行訓練學習,訓練結束后得到優化的深度強化學習網絡;
步驟四:將優化后的深度強化學習網絡部署到真實的四足機器人的控制系統中,所述優化后的深度強化學習網絡將結合當前四足機器人的狀態與模仿動作輸出對應的關節角度位置,從而模仿所述動物運動視頻中相關動物的運動;
所述深度強化學習網絡的獎勵函數r為
r=0.08rlin+0.02rang+0.03rbody
其中,rlin為四足機器人機身移動速度獎勵,鼓勵四足機器人以合理的速度運動,式中vx表示機器人沿機身方向的移動速度;rang是對機身偏航角速度的獎勵值,其目的是避免四足機器人機身發生抖動,其中ωy為機身沿著左右兩側偏轉的角速度;rbody表示機身平穩運行的獎勵值,θr和θy分別表示滾轉角以及偏航角,vy表示機器人垂直于機身方向的運動速度。
2.根據權利要求1所述的基于深度強化學習的四足機器人模仿運動控制方法,其特征在于,所述步驟一中的視頻特征提取網絡設置有七個卷積層,每層包含256個神經節點,激活函數設置為relu函數。
3.根據權利要求1所述的基于深度強化學習的四足機器人模仿運動控制方法,其特征在于,所述步驟一中的相關動物的運動節點的關鍵信息包括動物肩部、臀部以及足端等關鍵節點的實時位置以及軌跡信息。
4.根據權利要求1所述的基于深度強化學習的四足機器人模仿運動控制方法,其特征在于,所述步驟三中的基于演員-評論框架的深度強化學習網絡包括兩個演員網絡以及評論網絡,演員和評論網絡均包含有兩個隱含層,每個隱含層有256個節點,激活函數均設置為relu函數;
所述深度強化學習網絡的輸入包括機身的姿態信息以及步驟二中X11時序分析法提取出的運動特征周期性規律;為了匹配所采用的四足機器人與視頻中動物的尺寸關系,所述深度強化學習網絡將輸出四足機器人運動足端位置的平移縮放比例系數以及縮放偏差,以實現穩定的四足機器人模仿運動控制。
5.根據權利要求1所述的基于深度強化學習的四足機器人模仿運動控制方法,其特征在于,在步驟三的所述深度強化學習網絡進行訓練學習過程中,收集每次四足機器人與環境交互下的數據,整理為數據集D=(s,a,s′,r,d)i=1,...,N,其中s為四足機器人當前運行狀態信息,a為當前動作指令,s′為期望運行狀態,r為當前狀態下的獎勵函數,d為訓練終止判決標志;仿真環境以數據集D為基礎對設計的深度強化學習網絡進行訓練學習。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西湖大學,未經西湖大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110408992.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鉆孔機
- 下一篇:一種基于參考圖像的暈影校正方法、系統、裝置及介質





