[發(fā)明專利]一種基于步行比趨勢變化的獎勵函數(shù)建立方法有效
| 申請?zhí)枺?/td> | 202011387443.2 | 申請日: | 2020-12-01 |
| 公開(公告)號: | CN112472530B | 公開(公告)日: | 2023-02-03 |
| 發(fā)明(設(shè)計)人: | 孫磊;李云飛;董恩增;佟吉剛;陳鑫;曾德添;龔欣翔;李成輝 | 申請(專利權(quán))人: | 天津理工大學(xué) |
| 主分類號: | A61H3/00 | 分類號: | A61H3/00;G06F17/11 |
| 代理公司: | 天津市君硯知識產(chǎn)權(quán)代理有限公司 12239 | 代理人: | 程昊 |
| 地址: | 300384 *** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 步行 趨勢 變化 獎勵 函數(shù) 建立 方法 | ||
本發(fā)明公開了一種基于步行比趨勢變化的獎勵函數(shù)的建立方法,包括以下步驟:計算外骨骼機(jī)器人的穿戴者的步長D;計算步態(tài)周期T(k);根據(jù)步長D和步態(tài)周期T(k)計算步行比W;建立步行比采樣序列并對步行比采樣序列中的采樣序列打分;建立獎勵函數(shù)模型。該基于步行比趨勢變化的獎勵函數(shù)模型可運用于優(yōu)化外骨骼參數(shù)的算法當(dāng)中,增強強化學(xué)習(xí)的效率,促進(jìn)外骨骼參數(shù)快速收斂。
(一)技術(shù)領(lǐng)域:
本發(fā)明屬于機(jī)器人相關(guān)技術(shù)領(lǐng)域,是一種步態(tài)康復(fù)柔性外骨骼機(jī)器人的步行比獎勵函數(shù)的建立方法,能夠應(yīng)用于柔性外骨骼基于強化學(xué)習(xí)方法的控制參數(shù)自適應(yīng)控制任務(wù)中。
(二)背景技術(shù):
柔性外骨骼機(jī)器人可助力腿腳不方便的老年人行走,增強人體腿部力量。在康復(fù)治療、日常出行等方面具有廣泛的用途。由于人與人之間具有較大的個體差異性,目前,外骨骼機(jī)器人的控制參數(shù)大都需要根據(jù)穿戴者自身運動特征進(jìn)行調(diào)節(jié),耗時耗力且無法跟蹤穿戴者的身體變化。
強化學(xué)習(xí)可以在與環(huán)境的交互中尋找最優(yōu)策略,自主學(xué)習(xí)。因此,將強化學(xué)習(xí)運用到外骨骼中來可以大大提高機(jī)器人的參數(shù)自適應(yīng)性。由于強化學(xué)習(xí)的目標(biāo)是最大化累計獎勵,因此獎勵函數(shù)扮演了非常重要的角色。在監(jiān)督學(xué)習(xí)中,監(jiān)督信號由訓(xùn)練數(shù)據(jù)提供。在強化學(xué)習(xí)中,獎勵函數(shù)承擔(dān)了監(jiān)督信號的作用,智能體(Agent)依據(jù)獎勵進(jìn)行策略優(yōu)化。
獎勵函數(shù)是智能體學(xué)習(xí)效率的關(guān)鍵,目前獎勵函數(shù)大多依賴于人類專家的設(shè)計,對于一些復(fù)雜的決策問題,難以設(shè)計好的獎勵函數(shù)。為此,研究人員提出元學(xué)習(xí)(MetaLearning),模仿學(xué)習(xí)(Imitation Learning)等方式,讓智能體學(xué)習(xí)從好的策略中總結(jié)相應(yīng)的獎勵函數(shù),用于指導(dǎo)強化學(xué)習(xí)過程。然而,模仿學(xué)習(xí)需要借助反向強化學(xué)習(xí)(InverseReinforcement Learning)和強化學(xué)習(xí)的交替迭代,過程過于復(fù)雜,而且模仿學(xué)習(xí)依賴于專家樣本,對于某些缺少專家樣本的場合不適用。此外,對于一些稀疏獎勵的問題,強化學(xué)習(xí)的效率也非常低.研究人員為此提出一些解決方案,包括設(shè)置輔助任務(wù)、引入好奇心機(jī)制等,這些方法依然受到泛化能力的限制,需要根據(jù)具體任務(wù)由專家提供相應(yīng)的先驗信息,不能普遍意義上解決強化學(xué)習(xí)的稀疏獎勵問題。
如何針對柔性外骨骼參數(shù)自適應(yīng)的問題,設(shè)計一種促進(jìn)外骨骼參數(shù)快速收斂的獎勵函數(shù),是目前亟需解決的問題。
(三)發(fā)明內(nèi)容:
本發(fā)明的目的在于提出一種基于步行比趨勢變化的獎勵函數(shù)的建立方法,它可以克服現(xiàn)有技術(shù)的不足,能夠反映步行比的趨勢變化,利用MEMS(Micro-Electro-MechanicalSystem,微機(jī)電系統(tǒng))姿態(tài)傳感器的輸出數(shù)據(jù),計算步長和步態(tài)周期,得到步行比,并確立一種基于步行比趨勢變化的獎勵函數(shù),以促進(jìn)柔性外骨骼參數(shù)快速收斂,增強了參數(shù)的自適應(yīng)性,該方法簡單、易行,且容易實現(xiàn)。
本發(fā)明的技術(shù)方案:一種基于步行比趨勢變化的獎勵函數(shù)建立方法,其特征在于它包括以下步驟:
(1)采集柔性外骨骼機(jī)器人的穿戴者的髖關(guān)節(jié)屈曲角參數(shù)信號,并找到髖關(guān)節(jié)的最大屈曲角θmax和最小屈曲角θmin,若已知柔性外骨骼機(jī)器人的穿戴者的腿長為l時,則可得到柔性外骨骼機(jī)器人的穿戴者的步長D;
D=l(θmax-θmin) (1)
(2)將傳感器放置在柔性外骨骼機(jī)器人的穿戴者的左右大腿后部中間位置,并實時采集該穿戴者正常行走時的髖關(guān)節(jié)屈曲角參數(shù),以獲取穿戴者髖關(guān)節(jié)的屈曲角參數(shù)曲線,將波谷時刻記為t波谷,進(jìn)而可以計算得到當(dāng)前步態(tài)周期為:
T(k)=t波谷(k)-t波谷(k-1) (2)
即:當(dāng)前步態(tài)周期是由相鄰的兩個波谷點的值計算得到;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津理工大學(xué),未經(jīng)天津理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011387443.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種瀝青流動改性劑及其制備方法
- 下一篇:使用CD33嵌合抗原受體治療癌癥





