[發明專利]一種基于強化學習的冗余機械臂路徑規劃方法有效
| 申請號: | 202010673526.1 | 申請日: | 2020-07-14 |
| 公開(公告)號: | CN111923039B | 公開(公告)日: | 2022-07-05 |
| 發明(設計)人: | 黃攀峰;張琦;劉正雄;張帆;孟中杰;馬志強 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 西安凱多思知識產權代理事務所(普通合伙) 61290 | 代理人: | 王鮮凱 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 冗余 機械 路徑 規劃 方法 | ||
1.一種基于強化學習的冗余機械臂路徑規劃方法,其特征在于步驟如下:
步驟1:根據Kuka iiwaR820冗余機械臂的DH參數,在建模軟件調整每個模型旋轉軸的位置和方向;將修改好的模型導出成.fbx文件,導入unity軟件中;
步驟2、強化學習環境配置:
(1)在unity軟件中,采用三維建模得到訓練模型的環境,將環境中碰撞相關的模型的Tag設置為“obstacle”;
(2)每個場景中必須包含且只包含一個控制中心,用于與Python強化學習網絡進行通訊;
(3)設置機械臂的代理組件:新建腳本并繼承代理類,重寫CollcetObservation()方法,在其中使用addVectorObs()方法添加代理所需的變量,包括末端執行器的位置和末端執行器的姿態,當前末端執行器與目標位置的距離,當前末端執行器與末端姿態的差異,環境的障礙物信息;
步驟3、獎懲函數設計:
(1)在代理的AgentAction()方法中重寫強化學習的獎懲方法,當機械臂到達末端位姿且不發生碰撞時,使用SetAward()方法將獎勵設置為1,并標記為Done;
(2)采用能量最優的原則,機械臂在到達目標點前每次仿真移動都會有-0.01的懲罰;
(3)機械臂的移動使得其末端執行器較上一個狀態更接近目標時,得到0.05的獎勵;
4、機械臂在運動過程中與場景障礙物發生碰撞或與自身發生碰撞時,懲罰值為-1,標記為Done并結束本次迭代;
步驟4、訓練與模型導出:
(1)多智能體代理采用PPO強化學習算法,訓練之前對參數進行配置,修改配置文件中的超參數。
(2)設置每次迭代的最大值范圍為3000-5000;通過控制臺指令運行ml-agent進行訓練;
(3)更改配置文件中超參數,使用圖形化截面對比不同參數得到的訓練結果,選擇最優的進行導出,導出為.nn文件;
(4)將訓練模型.nn文件導入到unity中代理的行為參數中,運行unity,機械臂根據目標點位置進行路徑規劃。
2.根據權利要求1所述基于強化學習的冗余機械臂路徑規劃方法,其特征在于:所述修改配置文件中的超參數:將批處理大小調整為1024,緩存大小調整為10240。
3.根據權利要求1所述基于強化學習的冗余機械臂路徑規劃方法,其特征在于:所述每次迭代的最大值為5000。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010673526.1/1.html,轉載請聲明來源鉆瓜專利網。





