[發明專利]一種基于強化學習的冗余機械臂路徑規劃方法有效
| 申請號: | 202010673526.1 | 申請日: | 2020-07-14 |
| 公開(公告)號: | CN111923039B | 公開(公告)日: | 2022-07-05 |
| 發明(設計)人: | 黃攀峰;張琦;劉正雄;張帆;孟中杰;馬志強 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 西安凱多思知識產權代理事務所(普通合伙) 61290 | 代理人: | 王鮮凱 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 冗余 機械 路徑 規劃 方法 | ||
本發明涉及一種基于強化學習的冗余機械臂路徑規劃方法,基于深度強化學習算法,構建冗余機械臂訓練環境,設計獎勵函數對機械臂進行訓練。雖然進行離線訓練的時間較長,但訓練成功后的網絡模型可以直接使用,有效地規避了傳統路徑規劃算法的不足,提高了遙操作的時效性和交互效率。
技術領域
本發明屬于遙操作任務中路徑規劃方向,涉及一種基于強化學習的冗余機械臂路徑規劃方法。
背景技術
遙操作系統是利用機器人,通過傳輸媒介由操作人員在相對安全的環境中向遠端機器人發送指令,遠端機器人利用自身搭載的傳感器獲取數據進行反饋,操作人員利用這些反饋進行下一步決策的系統。遙操作系統廣泛應用在空間安裝,核工業,深海探測,軍事等高?;蜻h距離環境中。
遙操作系統中使用的機械臂從最開始的三軸機械臂,六軸機械臂發展具有更高冗余性的七軸機械臂,乃至九軸機械臂。其中七自由度冗余機械臂憑借其良好的仿人特性逐漸被廣泛采用,相較于傳統的六自由度機械臂,機械臂的末端執行器可以以任意姿態到達工作空間的任意位置,可以避免奇異,避免關節超限,可以在任務空間進行避障。
在遙操作任務中,機械臂的路徑規劃作為重要的一部分,采用多種方法進行求解,如人工勢場法,RRT算法,遺傳算法等,這些算法或存在易陷入局部最優解,或規劃的路徑不平滑,或占用大量存儲空間,不符合遙操作虛擬仿真端“實時性”的要求,給冗余機械臂的路徑規劃帶來不便。
發明內容
要解決的技術問題
為了避免現有技術的不足之處,本發明提出一種基于強化學習的冗余機械臂路徑規劃方法,聚焦于遙操作中冗余機械臂的路徑規劃問題,針對傳統路徑規劃算法的求解問題,基于Unity ml-agents強化學習算法訓練機械臂完成路徑規劃任務,大大提升了解算的速度同時減少了程序運行時的內存消耗,提高了遙操作任務的操作效率。
技術方案
一種基于強化學習的冗余機械臂路徑規劃方法,其特征在于步驟如下:
步驟1:根據Kuka iiwaR820冗余機械臂的DH參數,在建模軟件調整每個模型旋轉軸的位置和方向;將修改好的模型導出成.fbx文件,導入unity軟件中;
步驟2、強化學習環境配置:
1、在unity軟件中,采用三維建模得到訓練模型的環境,將環境中碰撞相關的模型的Tag設置為“obstacle”;
2、每個場景中必須包含且只包含一個Academy,用于與Python強化學習網絡進行通訊;
3、設置機械臂的Agent組件:新建腳本并繼承Agent類,重寫CollcetObservation()方法,在其中使用addVectorObs()方法添加Agent觀測的變量,包括末端執行器的位置target.transform.position和姿態target.transform.locaRotation,當前末端執行器與目標位置的距離distance,當前末端執行器與末端姿態的差異difQuaternion,環境的障礙物信息meshObstacle;
步驟3、獎懲函數設計:
1、在Agent的AgentAction()方法中重寫強化學習的獎懲方法,當機械臂到達末端位姿且不發生碰撞時,使用SetAward()方法將獎勵設置為1,并標記為Done;
2、采用能量最優的原則,機械臂在到達目標點前每次仿真移動都會有-0.01的懲罰;
3、機械臂的移動使得其末端執行器較上一個狀態State更接近目標時,得到0.05的獎勵;
4、機械臂在運動過程中與場景障礙物發生碰撞或與自身發生碰撞時,懲罰值為-1,標記為Done并結束本次episode;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010673526.1/2.html,轉載請聲明來源鉆瓜專利網。





