[發明專利]基于策略梯度學習法的模型參數修正方法及修正器有效
| 申請號: | 201610841970.3 | 申請日: | 2016-09-22 |
| 公開(公告)號: | CN106292288B | 公開(公告)日: | 2017-10-24 |
| 發明(設計)人: | 陳啟軍;劉成菊;寧靜 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 上海科盛知識產權代理有限公司31225 | 代理人: | 趙志遠 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 策略 梯度 學習 模型 參數 修正 方法 及其 應用 | ||
1.基于策略梯度學習法的模型參數修正方法,其特征在于,包括以下步驟:
S1:選擇倒立擺輸入參數和機器人軀干姿態參數為修正量,建立修正量的模型參數修正方程,所述模型參數修正方程內包含待優化的增益系數,
S2:選擇機器人質心跟蹤的誤差以及機器人身體姿態相對于直立狀態的誤差作為機器人對當前環境的適應度指標,建立適應度評價函數,
S3:根據適應度評價函數,利用策略梯度學習法優化模型參數修正方程中的增益系數,將優化后的增益參數代入模型參數修正方程得到修正量,
步驟S1中,選擇為修正量的倒立擺輸入參數包括x軸向步伐大小和y軸向步伐大小,選擇為修正量的機器人軀干姿態參數包括x軸向軀干角和y軸向軀干角,所述模型參數修正方程具體為:
其中,下標x、y、z分別表示x、y、z軸向,s為步伐大小,Δs為步伐大小的修正量,θB為軀干角,ΔθB為軀干角的修正量,N為一個單腳支撐階段的插值的步數,下標i表示單腳支撐階段中第i個步數,xf為卡爾曼濾波后質心的估計值,xe為質心的理想值,為軀干直立時的傾斜角,pRHip和pLHip分別為機器人右腿和左腿髖關節的位移,pHead和pSuppFoot分別為機器人頭部關節和支撐腳的位移,K1,...,K6為增益參數;
所述適應度評價函數F(K)具體為:
其中,K={K1,...,K6}表示增益參數集,αx、αy、βx和βy為權重因子,且滿足αx+αy=1,βx+βy=1,適應度評價函數的值越小,表示機器人在增益參數集下的適應度越高;
所述策略梯度學習法的具體步驟為:
301:在第k次迭代中,對于上一次迭代獲得的增益參數集Kk-1,并在Kk-1附近隨機生成n個策略,得到的策略集用mKk-1(m=1,...,n)表示,策略的個數n與搜索空間成正比,策略集的生成公式如下:
mKk-1=Kk-1+mρ
其中,mρ(m=1,...,n)表示擾動集合,擾動集合中每個擾動ρm在集合{-em,0,+em}中隨機選取,em表示對應ρm的擾動增益參量,
302:根據擾動ρm的-em,0,+em取值情況將mKk-1對應分成三組:G0和將mKk-1代入適應度評價函數,得到每個分組對應的平均值:和
303:計算近似的梯度值▽Kk-1,若且▽Kk-1=0,否則
304:對▽Kk-1進行正交化處理,乘一個固定的步長因子η得到梯度值從策略集Kk-1減去梯度值得到本次迭代的策略集Kk,并利用Kk進行下一次的迭代,
305:當迭代次數達到預設值Niter時,迭代結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610841970.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種伸縮吊燈
- 下一篇:一種燈具懸掛安裝結構





