[發明專利]一種基于深度強化學習的外骨骼主助力參數的優化方法有效
| 申請號: | 202011383180.8 | 申請日: | 2020-12-01 |
| 公開(公告)號: | CN112494282B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 孫磊;陳鑫;董恩增;佟吉剛;李云飛;曾德添;龔欣翔;李成輝 | 申請(專利權)人: | 天津理工大學 |
| 主分類號: | A61H3/00 | 分類號: | A61H3/00;G06N3/092;G06N3/045;G06Q10/04;G16H20/30 |
| 代理公司: | 天津市君硯知識產權代理有限公司 12239 | 代理人: | 程昊 |
| 地址: | 300384 *** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 骨骼 助力 參數 優化 方法 | ||
1.一種基于深度強化學習的外骨骼主助力參數優化的方法,其特征在于它包括以下步驟:
(1)確定優化參數;
根據外骨骼助力曲線方程確定優化參數,該曲線方程為公式(1)所示復合正弦曲線形式:
式中,Fassist為實時助力大小,A為擺動相助力幅值,t*是當前時刻到助力開始時刻之間時間,Tb為當前步態周期的擺動相周期,α是為外骨骼主助力參數,作為公式(1)的波形控制參數,起改變助力峰值位置的作用,取值范圍為-1≤α≤1;
(2)設定參數:
設定外骨骼穿戴者每次行走時間間隔為T=5~7s,可適當增加時間間隔,保證外骨骼穿戴者能夠步行至少3步,用于獲取當前步態周期的擺動相周期,而且需使外骨骼穿戴者結束每次行走時間間隔時能夠平穩站立,且每次前進后外骨骼重新判斷助力情況;預先設置最大情節數E、批次抽樣數量N及每情節最大時間輪Tmax;
(3)設計深度確定性策略梯度方法中的標準配置,具體包括對策略網絡及評價網絡的設計;其中,所述策略網絡包括在線策略網絡μ(s|αμ)和目標策略網絡μ(s|αμ');所述評價網絡包括在線評價網絡Q(s,a|aQ)和目標評價網絡Q(s,a|αQ');
(4)從1到E對情節數e進行枚舉,即對外骨骼主助力參數α進行E次收斂,每一情節開始時可獲得初始時刻外骨骼的狀態;
(5)獲取初始狀態:
當步驟(4)中的每一情節開始時,需要令外骨骼穿戴者在無助力情況下正常行走T的時間間隔,并獲取其外骨骼的狀態作為t=1時刻的初始時刻外骨骼的狀態s1,具體包括初始時刻擺動相助力幅值A1、初始時刻外骨骼穿戴者髖關節的屈曲角度θ1、初始時刻步態周期T1、初始時刻步態周期的擺動相周期Tb1、初始時刻步態周期下髖關節的最大屈曲角θmax,1、初始時刻步態周期下髖關節的最小屈曲角θmin,1;
(6)將時間輪從1到Tmax進行枚舉,在每一時間輪開始時記錄t時刻,所述枚舉時間輪即在每一情節數中進行Tmax次步驟(7)至步驟(13),目的是在每一情節下外骨骼執行由在線策略網絡選取Tmax次外骨骼的動作,從而產生數據集用于參數訓練,提高訓練結果的可靠性;而且Tmax的值取的越大則枚舉的次數越多從而產生的數據越多,目的是使優化的參數能夠收斂;
(7)所述在線策略網絡根據(6)式選擇t時刻外骨骼的動作:
at=μ(st|αμ)+Noise????(6)
其中,Noise是用于擴大取值范圍,使得選取t時刻外骨骼的動作的范圍更大;
(8)外骨骼執行步驟(7)選取的動作,外骨骼穿戴者根據外骨骼執行的動作持續一次T的時間間隔,可以得到柔性外骨骼反饋的標量化獎賞rt和下一時刻的外骨骼狀態st+1;
(9)狀態轉換過程:
將t時刻外骨骼的狀態st、步驟(7)得到的t時刻外骨骼的動作at、步驟(8)得到的t的下一時刻外骨骼的狀態st+1及柔性外骨骼反饋的標量化獎賞rt,作為一個訓練數據集存入經驗回放池R中用于參數訓練;
(10)隨機采樣N個步驟(9)狀態轉換過程作為一個批量訓練數據進行參數訓練;
(11)執行完步驟(7)到步驟(10)即完成一次時間輪,枚舉結束,并令時間輪加1,繼續執行步驟(7)到步驟(10);直到策略網絡和評價網絡中各個網絡的參數實現收斂,令本發明基于深度強化學習方法所要優化的外骨骼主助力參數α等于策略網絡中目標策略網絡的目標策略網絡參數αμ',策略網絡中目標策略網絡的目標策略網絡參數αμ'收斂,即代表在此情節數下本發明基于深度強化學習方法所要優化的外骨骼主助力參數α收斂,外骨骼穿戴者的步行比穩定在設定好的健康老年人步行比,則結束當前情節數,進行下一次情節數;
(12)執行完步驟(5)到步驟(11)即完成一次情節數e,枚舉結束,并令e=e+1,繼續執行步驟(5)到步驟(11);直到每次情節數結束,策略網絡中目標策略網絡的目標策略網絡參數αμ'都收斂在同一個值,即代表外骨骼主助力參數α都收斂在同一個值,則視為基于深度強化學習方法所要優化的外骨骼主助力參數α完成,可利用該外骨骼主助力參數α實現外骨骼最佳助力,使外骨骼穿戴者的步行比始終穩定在設定好的健康老年人步行比,實現外骨骼穿戴者的康復運動。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津理工大學,未經天津理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011383180.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:危廢智能化配伍系統
- 下一篇:光學鏡頭、攝像頭模組及電子裝置





