[發明專利]基于策略梯度學習法的模型參數修正方法及修正器有效
| 申請號: | 201610841970.3 | 申請日: | 2016-09-22 |
| 公開(公告)號: | CN106292288B | 公開(公告)日: | 2017-10-24 |
| 發明(設計)人: | 陳啟軍;劉成菊;寧靜 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 上海科盛知識產權代理有限公司31225 | 代理人: | 趙志遠 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 策略 梯度 學習 模型 參數 修正 方法 及其 應用 | ||
技術領域
本發明涉及機器人行走控制技術領域,尤其是涉及基于策略梯度學習法的模型參數修正方法及修正器。
背景技術
在機器人的行走問題中,為了生成的穩定步態,目前的方案大多將機器人抽象為簡單的物理模型,如線性倒立擺模型(LIPM)、桌子-小車模型等,利用模型簡化機器人的運動方程,并進行離線軌跡規劃,此類方法中如果模型的參數是固定的,則機器人的步態是無法修改的,因而對于未知的外界擾動缺乏抑制能力。目前將學習方法應用于機器人行走的方案中,大多都是選定影響步態的關鍵參數,在高維度的搜索空間內直接對關鍵參數進行優化學習,并未將機器人進行抽象建模,因而需要進行大量的離線訓練或進行長時間的在線學習,尋找局部最優解,以保證機器人行走的穩定性,這些方法使得機器人的步態是可調整的,但不適合機器人在未知環境下的實時快速調節。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供基于策略梯度學習法的模型參數修正方法及修正器,將學習的方法引入機器人倒立擺模型,設計了一種基于策略梯度學習法的模型參數修正器,間接優化步態參數,在修正器的作用下,策略方程收斂快速,機器人能在未知的擾動下快速、實時地調節步態和身體姿態,提高了行走的自適應性和魯棒性。
本發明的目的可以通過以下技術方案來實現:
基于策略梯度學習法的模型參數修正方法包括以下步驟:
S1:選擇倒立擺輸入參數和機器人軀干姿態參數為修正量,建立修正量的模型參數修正方程,所述模型參數修正方程內包含待優化的增益系數;
S2:選擇機器人質心跟蹤的誤差以及機器人身體姿態相對于直立狀態的誤差作為機器人對當前環境的適應度指標,建立適應度評價函數;
S3:根據適應度評價函數,利用策略梯度學習法優化模型參數修正方程中的增益系數,將優化后的增益參數代入模型參數修正方程得到下一個單腳支撐階段的修正量。
步驟S1中,選擇為修正量的倒立擺輸入參數包括x軸向步伐大小和y軸向步伐大小,選擇為修正量的機器人軀干姿態參數包括x軸向軀干角和y軸向軀干角,所述模型參數修正方程具體為:
其中,下標x、y、z分別表示x、y、z軸向,s為步伐大小,Δs為步伐大小的修正量,θB為軀干角,ΔθB為軀干角的修正量,N為一個單腳支撐階段的插值的步數,下標i表示單腳支撐階段中第i個步數,xf為卡爾曼濾波后質心的估計值,xe為質心的理想值,為軀干直立時的傾斜角,pRHip和pLHip分別為機器人右腿和左腿髖關節的位移,pHead和pSuppFoot分別為機器人頭部關節和支撐腳的位移,K1,...,K6為增益參數。
所述適應度評價函數F(K)具體為:
其中,K={K1,...,K6}表示增益參數集,αx、αy、βx和βy為權重因子,且滿足αx+αy=1,βx+βy=1,適應度評價函數的值越小,表示機器人在增益參數集下的適應度越高。
所述策略梯度學習法的具體步驟為:
301:在第k次迭代中,對于上一次迭代獲得的增益參數集Kk-1,計算F(K)在Kk-1內每個參數值處的偏導,并在Kk-1附近隨機生成n個策略,得到的策略集用mKk-1(m=1,...,n)表示,策略的個數n與搜索空間成正比,策略集的生成公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610841970.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種伸縮吊燈
- 下一篇:一種燈具懸掛安裝結構





