[發明專利]一種用于強化學習機械臂控制中基于磁場的獎勵塑形方法在審
| 申請號: | 202210705509.0 | 申請日: | 2022-06-21 |
| 公開(公告)號: | CN115179280A | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 王志;丁泓宇;王博;陳春林;辛博;朱張青 | 申請(專利權)人: | 南京大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 南京天翼專利代理有限責任公司 32112 | 代理人: | 錢新園 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 強化 學習 機械 控制 基于 磁場 獎勵 方法 | ||
本發明公開一種用于強化學習機械臂控制中基于磁場的獎勵塑形方法,包括:S1、設計任務環境,設定機械臂、目標物和障礙物的相關參數,設置強化學習算法的超參數;S2、將目標物和障礙物分別視為與其同等形狀的永磁體,確定三維空間磁場強度分布的計算方式;S3、機械臂與環境交互,收集訓練數據,計算機械臂末端坐標在目標物和障礙物磁場中的磁場強度,得到磁場獎勵函數;S4、利用DPBA算法將磁場獎勵函數轉換為基于勢能的塑形獎勵函數,與訓練數據一起存放至經驗回放池;S5、從經驗回放池中采集一個批次的數據,使用強化學習算法訓練機械臂完成規定任務。本發明能夠為機械臂提供目標物和障礙物更為豐富的方位信息,從而提高強化學習算法的學習效率。
技術領域
本發明屬于機器人控制領域,具體涉及一種用于強化學習機械臂控制中基于磁場的獎勵塑形方法。
背景技術
傳統的機械臂控制方法,通常需要基于運動學和動力學方程對機械臂進行建模并求解末端位姿和各個關節的角度值。隨著工業應用場景的復雜性和動態性不斷提高,傳統基于模型的機械臂控制方法的計算復雜度也越來越高,無法及時適應外部環境的變化,缺乏對環境的自主學習和泛化能力。
近年來,強化學習由于其處理序列決策問題的獨特優勢,被廣泛應用于機械臂控制任務中。其通過將傳感器獲取的環境狀態信息直接映射到機械臂執行的動作上,實現端到端(end-to-end)的控制,為復雜連續高維系統的控制問題提供新的解決思路。強化學習的優化目標是在馬爾可夫決策過程(MDP)中尋找使得累計獎勵值最大的最優策略,因此設計一個科學的獎勵函數尤為重要。關于機械臂運動控制任務中獎勵函數的設計,現有方法的設置較為簡單,其中包括方位獎勵函數設計、啟發式獎勵函數設計等,無法在復雜動態環境中為機械臂提供豐富的獎勵信號,未能有效提高學習效率。
公開號為CN113894787A的專利文件公開了一種用于機械臂強化學習運動規劃中啟發式獎勵函數的設計方法,包括:建立機械臂運動規劃問題的啟發式函數;根據啟發式函數,構建機械臂運動規劃的啟發式獎勵函數;確定啟發式獎勵函數中的參數取值;利用構建的啟發式獎勵函數訓練機械臂運動規劃的神經網絡運動規劃器。該發明基于機械臂末端位置到目標位置的直線距離來設置啟發式獎勵函數,無法提供更高階的獎勵信號,且無法保證學習策略的最優性。
發明內容
本發明的目的是針對現有強化學習機械臂控制方法中的獎勵函數在復雜動態環境中提供信息有限的問題,提出了一種用于強化學習機械臂控制中基于磁場的獎勵塑形方法,能夠在保證最優策略不變的情況下,為機械臂提供關于目標物和障礙物更為豐富的方位信息,從而提高強化學習算法的學習效率和收斂速度。
本發明的技術方案為:一種用于強化學習機械臂控制中基于磁場的獎勵塑形方法,其特征在于,包括以下步驟:
S1、設計任務環境,設定機械臂、目標物和障礙物的相關參數,設置強化學習算法的各項超參數;
S2、將目標物視為同等形狀的方形永磁體,確定其磁化方向和三維空間磁場強度分布的計算方式,障礙物同理;
S3、機械臂與環境交互,收集訓練數據,并根據下一狀態計算機械臂末端坐標在目標物和障礙物磁場中的磁場強度,經過標準化和歸一化處理后得到磁場獎勵函數;
S4、利用DPBA算法將磁場獎勵函數轉換為基于勢能的塑形獎勵函數,并和訓練數據一起存放于經驗回放池;
S5、從經驗回放池中采集一個批次的數據,使用強化學習算法訓練機械臂在動態環境下避開障礙物并到達目標物的最優策略。
作為優選,所述步驟S1包括以下幾個步驟:
步驟1.1,設計任務環境的狀態觀測值和機械臂的動作值,具體包括:
a、環境狀態觀測值包含機械臂三個關節的轉角、機械臂末端的坐標,以及目標物和障礙物中心點的坐標;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210705509.0/2.html,轉載請聲明來源鉆瓜專利網。





