[發(fā)明專利]一種基于深度強(qiáng)化學(xué)習(xí)的雙足機(jī)器人步態(tài)規(guī)劃方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810979187.2 | 申請(qǐng)日: | 2018-08-27 |
| 公開(公告)號(hào): | CN108983804B | 公開(公告)日: | 2020-05-22 |
| 發(fā)明(設(shè)計(jì))人: | 吳曉光;劉紹維;楊磊;張?zhí)熨n;李艷會(huì);王挺進(jìn) | 申請(qǐng)(專利權(quán))人: | 燕山大學(xué) |
| 主分類號(hào): | G05D1/08 | 分類號(hào): | G05D1/08 |
| 代理公司: | 北京挺立專利事務(wù)所(普通合伙) 11265 | 代理人: | 劉陽 |
| 地址: | 066004 河北省*** | 國省代碼: | 河北;13 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強(qiáng)化 學(xué)習(xí) 機(jī)器人 步態(tài) 規(guī)劃 方法 | ||
1.一種基于深度強(qiáng)化學(xué)習(xí)的雙足機(jī)器人步態(tài)規(guī)劃方法,其特征在于,包括如下步驟:
步驟S1:建立雙足機(jī)器人模型,描述機(jī)器人行走過程;
步驟S2:獲取并處理人體步態(tài)數(shù)據(jù)和目標(biāo)步態(tài)數(shù)據(jù);
步驟S3:使用降噪自動(dòng)編碼器分別提取雙足機(jī)器人步態(tài)數(shù)據(jù)與人體步態(tài)數(shù)據(jù)中的隱含特征;
步驟S4:利用深度強(qiáng)化學(xué)習(xí)對(duì)人體步態(tài)特征進(jìn)行學(xué)習(xí),進(jìn)而規(guī)劃雙足機(jī)器人步態(tài);其中,
步驟S1具體包括以下步驟:
步驟S101:建立4連桿有膝圓弧足機(jī)器人模型;其中,機(jī)器人模型包括2個(gè)大腿,2個(gè)小腿以及2個(gè)圓弧足,腿部由剛性桿通過鉸鏈無摩擦地連接在一起,圓弧足分別固定連接在小腿上,支撐腿和擺動(dòng)腿具有完全相同的質(zhì)量和幾何參數(shù),且腿的質(zhì)量均勻分布,機(jī)器人模型的膝關(guān)節(jié)處設(shè)置限位機(jī)構(gòu)以模擬人體的膝關(guān)節(jié)功能,在髖關(guān)節(jié)設(shè)置兩臺(tái)電機(jī),分別對(duì)支撐腿和擺動(dòng)腿施加控制力矩;
步驟S102:以機(jī)器人行走過程中前進(jìn)方向的右側(cè)面為視點(diǎn)對(duì)模型步行過程進(jìn)行分析,選擇實(shí)時(shí)表征機(jī)器人狀態(tài)的無量綱物理量,將所選擇的物理量定義為機(jī)器人步行狀態(tài)Θr,機(jī)器人步行狀態(tài)被描述為:
其中,取逆時(shí)針旋轉(zhuǎn)為正,θr1,為擺動(dòng)腿小腿到豎直方向的角度和角速度;θr2,為擺動(dòng)腿大腿到豎直方向的角度和角速度;θr3,為支撐腿小腿到豎直方向的角度和角速度;
步驟S2具體包括以下步驟:
步驟S201:將人體和機(jī)器人從擺動(dòng)腿起擺到擺動(dòng)腿與地面發(fā)生碰撞的過程定義為一個(gè)步態(tài)周期;
步驟S202:從CMU人體運(yùn)動(dòng)捕獲數(shù)據(jù)庫中選取人體正常行走過程數(shù)據(jù)集,將數(shù)據(jù)集進(jìn)行人體劃分并解算,得到人體步行過程描述;
步驟S203:以機(jī)器人模型為參照,取人體步行縱向的2D平面,定義人體步行狀態(tài)為Θm,將人體步行過程描述中的所有數(shù)據(jù)使用Θm進(jìn)行表示,并將Θm作為行向量,組合得到人體步態(tài)數(shù)據(jù)ΘM;
步驟S204:從人體步態(tài)數(shù)據(jù)ΘM中選取一個(gè)步態(tài)周期作為機(jī)器人的學(xué)習(xí)對(duì)象,提取學(xué)習(xí)對(duì)象數(shù)據(jù)中的奇數(shù)幀組成新的數(shù)據(jù)集,并定義為目標(biāo)步態(tài)數(shù)據(jù)ΘS,其中,目標(biāo)步態(tài)數(shù)據(jù)ΘS中任意行向量為提取得到的Θm;
步驟S205:將機(jī)器人在步態(tài)周期中的步行狀態(tài)Θr按照ΘS中的采樣頻率進(jìn)行采樣,組成機(jī)器人步態(tài)數(shù)據(jù)ΘR,其中,機(jī)器人步態(tài)數(shù)據(jù)ΘR中任意行向量為采樣得到的Θr;
步驟S3具體包括:根據(jù)Θr、Θm的數(shù)據(jù)結(jié)構(gòu),構(gòu)建兩個(gè)結(jié)構(gòu)相同的降噪自動(dòng)編碼器,對(duì)機(jī)器人步態(tài)數(shù)據(jù)ΘR和目標(biāo)步態(tài)數(shù)據(jù)ΘS進(jìn)行特征提取;將ΘR、ΘS的行向量逐一送入降噪自動(dòng)編碼器,并將得到的特征按原有順序排列,組成機(jī)器人步態(tài)特征數(shù)據(jù)HR和目標(biāo)步態(tài)特征數(shù)據(jù)HS,將HR和HS統(tǒng)一進(jìn)行歸一化處理以便用于深度強(qiáng)化學(xué)習(xí),其中每個(gè)降噪自動(dòng)編碼器工作流程如下步驟:
S301:取ΘR或ΘS中一行向量Θ送入降噪自動(dòng)編碼器,降噪自動(dòng)編碼器使用二項(xiàng)分布對(duì)原始步態(tài)數(shù)據(jù)Θ進(jìn)行隨機(jī)擦除,被檫除數(shù)據(jù)置0,得到含有噪聲的步態(tài)數(shù)據(jù)通過編碼函數(shù)f將映射到隱藏層,得到隱藏層特征h,其中降噪自動(dòng)編碼器的編碼函數(shù)為:
其中,w為輸入層和隱藏層間的權(quán)重矩陣;sf為編碼函數(shù)f的激活函數(shù),激活函數(shù)取Sigmod函數(shù);
S302:隱藏層特征h通過解碼函數(shù)g映射到輸出層,得到重構(gòu)輸出y;重構(gòu)輸出y保持原始步態(tài)數(shù)據(jù)x的信息,其整體誤差通過整體損失函數(shù)JDAE來表示,其中降噪自動(dòng)編碼器的解碼函數(shù)為:
其中,為隱藏層與輸出層間的權(quán)重矩陣,且有sg為解碼函數(shù)的激活函數(shù),同樣為Sigmod函數(shù);在給定的訓(xùn)練集中降噪自動(dòng)編碼器的整體損失函數(shù):
其中θDAE是降噪自動(dòng)編碼器的參數(shù),包括w,p,q;L定義為重構(gòu)誤差,用于刻畫y與Θ的接近程度:
其中n為輸入輸出層的維度;
S303:降噪自動(dòng)編碼器訓(xùn)練過程使用梯度下降對(duì)JDAE(θ)進(jìn)行迭代計(jì)算以得到最小值,梯度下降對(duì)θDAE的更新函數(shù):
其中α為學(xué)習(xí)速率,取值為[0,1]。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于燕山大學(xué),未經(jīng)燕山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810979187.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測方法及系統(tǒng)





