[發明專利]一種用于強化學習機械臂控制中基于磁場的獎勵塑形方法在審
| 申請號: | 202210705509.0 | 申請日: | 2022-06-21 |
| 公開(公告)號: | CN115179280A | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 王志;丁泓宇;王博;陳春林;辛博;朱張青 | 申請(專利權)人: | 南京大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 南京天翼專利代理有限責任公司 32112 | 代理人: | 錢新園 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 強化 學習 機械 控制 基于 磁場 獎勵 方法 | ||
1.一種用于強化學習機械臂控制中基于磁場的獎勵塑形方法,其特征在于,包括如下步驟:
S1、設計任務環境,設定機械臂、目標物和障礙物的相關參數,設置強化學習算法的各項超參數;
S2、將目標物視為同等形狀的方形永磁體,確定其磁化方向和三維空間磁場強度分布的計算方式,障礙物同理;
S3、機械臂與環境交互,收集訓練數據,并根據下一狀態計算機械臂末端坐標在目標物和障礙物磁場中的磁場強度,經過標準化和歸一化處理后得到磁場獎勵函數;
S4、利用DPBA算法將磁場獎勵函數轉換為基于勢能的塑形獎勵函數,并和訓練數據一起存放于經驗回放池;
S5、從經驗回放池中采集一個批次的數據,使用強化學習算法訓練機械臂在動態環境下避開障礙物并到達目標物的最優策略。
2.根據權利要求書1所述的用于強化學習機械臂控制中基于磁場的獎勵塑形方法,其特征在于,所述步驟S1包括以下步驟:
步驟1.1,設計任務環境的狀態觀測值和機械臂的動作值,具體包括:
a、環境狀態觀測值包含機械臂三個關節的轉角、機械臂末端的坐標,以及目標物和障礙物中心點的坐標;
b、機械臂的動作值為三個關節電機的轉角速度,即在單位時間步長里三個關節旋轉的角度;
步驟1.2,建立與機械臂的連接,設置三個關節轉動的速度和加速度范圍;規定目標物和障礙物隨機生成的方式,確保目標物在機械臂末端可達到的范圍之內,并且目標物和障礙物不相交;
步驟1.3,設置強化學習算法基本的超參數,至少包括:探索噪聲,經驗回放池的大小;每次訓練的更新次數K,每次更新所用數據批次的大小N;神經網絡的層數,每層的節點數、激活函數;折扣因子γ;策略網絡μθ(s)和值函數網絡Qφ(s,a)參數更新的優化器、學習率,目標網絡和的軟更新步長τ。
3.根據權利要求書1所述的用于強化學習機械臂控制中基于磁場的獎勵塑形方法,其特征在于,所述步驟S2中,方形永磁體三維空間中磁場強度分布的解析計算方法如下:
假設磁化方向為z軸正方向,磁化強度為Mc,對于沿x軸、y軸、z軸長度分別為l,w,h的方形永磁體,其在三維空間中任意一點P(x,y,z)處在x軸、y軸、z軸方向上的磁場強度分量可表示為:
其中,Γ(γ1,γ2,γ3)和為兩個輔助函數,表達式如下:
其中,∈為一極小值;于是,可以得到方形永磁體在三維空間中任意一點的磁場強度為:
。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210705509.0/1.html,轉載請聲明來源鉆瓜專利網。





