[發明專利]一種基于自適應權重強化學習的六足機器人避障方法有效
| 申請號: | 202010416376.6 | 申請日: | 2020-05-17 |
| 公開(公告)號: | CN111552183B | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 李華雄;任其成;陳春林;王嵐;唐開強;王子輝;朱張青;辛博 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 南京北辰聯和知識產權代理有限公司 32350 | 代理人: | 于忠洲 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自適應 權重 強化 學習 機器人 方法 | ||
1.一種基于自適應權重強化學習的六足機器人避障方法,其特征在于,包括如下步驟:
步驟1,由六足機器人通過測距傳感器測量機器人與前側、左側以及右側三個方向上的障礙物距離,并通過模糊隸屬度函數將測量的障礙物距離轉化為有限的狀態集合;
步驟2,根據有限的狀態集合建立六足機器人避障模型,再利用自適應權重強化學習算法學習出最優網絡模型參數θ*;
步驟3,根據上述學習出的最優網絡模型參數θ*得到六足機器人避障的最優目標策略,由最優目標策略獲得六足機器人在t時刻避障所要采取的動作at;
步驟2中,利用自適應權重強化學習算法學習出最優網絡模型參數θ*的具體步驟為:
步驟2.1,根據有限的狀態集合在python中建立六足機器人避障模型;
步驟2.2,設定大循環參數k,且1≤k≤K,K表示終止時刻;
步驟2.3,記錄k時刻六足機器人從環境中獲得的回報值rk以及k時刻六足機器人的狀態sk,將樣本(sk-1,ak-1,rk-1,sk)存入回放存儲中并設置其中ak-1表示在狀態sk-1下六足機器人采取的動作,rk-1表示六足機器人對應獲得的回報值,CIF為對應樣本復雜度指示函數,表示最大的復雜度指示函數中的最大值;
步驟2.4,設定小循環參數m,且m的初始值為1;
步驟2.5,當m≤M時,其中M表示神經網絡訓練的批大小,根據式(3)自適應選擇合適的訓練樣本:
式(3)中,m作為對應樣本編號,P(m)為編號m樣本的采樣概率,ψ為指數隨機因子,CIF為對應樣本復雜度指示函數,指數隨機因子ψ→[0,1]決定采用優先級的程度,當ψ值為0時,為均勻采樣,當ψ值為1時,為優先級采樣;
步驟2.6,計算對應樣本的時間差分誤差δm:
式(4)中,rm為樣本m時六足機器人從環境中獲得的回報值,γ∈[0,1]為折扣因子,sm+1為sm的下一個狀態,am+1為狀態sm+1下的動作,θ-為目標Q值網絡參數,θ為主深度Q值網絡參數;
步驟2.7,計算編號m樣本的重要性采樣權重wm:
式(5)中,D為回放存儲的容量,P(m)為狀態樣本序列xm=(sm,am,rm,sm+1)的采樣概率,β為補償系數,表示重要性采樣權重參數中的最大值;
步驟2.8,計算權重變化量:
式(6)中,Δ是權重變化率,初始化為0,表示目標Q值網絡對參數θ的導數;
步驟2.9,根據復雜度指示函數式(7)計算編號m樣本的復雜度;
CIFm=RAF(rm,δm)+ηCPF(cnm+1) (7)
式(7)中,RAF(rm,δm)為樣本回報值的重要性參數,CPF(cnm+1)被定義為樣本的使用次數的影響參數,為單調遞增的函數,且值域在0到1之間,cnm+1是樣本對應的使用次數,η為樣本的覆蓋懲罰項的權衡參數;
RAF(rm,δm)的計算公式為:
RAF(rm,δm)=|δm|*RWF(rm)+τ (8)
式(8)中,τ為一個較小的正數,RWF(rm)的計算公式為:
CPF(cnm+1)的計算公式為:
式(10)中,p和q均大于0,且為兩個預設常數;
步驟2.10,m的值自加1,若m≤M,則返回步驟2.5,若m>M,則結束小循環進入步驟2.11;
步驟2.11,利用隨機梯度下降更新主深度Q值網絡參數,更新公式為:
SGD(θ←θ+λ*Δ,and resetΔ=0) (11)
式(11)中λ為更新步長,式(12)中y為樣本m對應的理論標記值,Loss(θ;Q,y)為損失函數,式(13)中θLoss為損失函數Loss(θ;Q,y)對其中的參數θ的導數;
步驟2.12,延遲更新目標Q值網絡參數:
θ-←θ (14)
式(14)在計算過程中應保持目標Q值網絡參數θ的固定,參數的更新應隔一段時間更新一次;
步驟2.13,六足機器人根據式(15)選擇m時刻目標策略對應的動作am為:
式(15)中,sm表示六足機器人m時刻對應的狀態,π為避障的目標策略,pm表示選擇這個動作的概率,ε為一個較小的正數;
步驟2.14,k的值自加1,若k≤K,則返回步驟2.3,若k>K且公式(12)中的Loss(θ;Q,y)的單調減少而收斂到最小值,則結束大循環,得到了最優網絡模型參數θ*。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010416376.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種服裝制造用上蠟粉碎系統
- 下一篇:一種智能遙控終端





