[發明專利]基于近端策略優化算法的機器人快速裝配方法及系統有效
| 申請號: | 202111353675.0 | 申請日: | 2021-11-16 |
| 公開(公告)號: | CN113977583B | 公開(公告)日: | 2023-05-09 |
| 發明(設計)人: | 宋銳;門漁;李鳳鳴;靳李崗;王艷紅 | 申請(專利權)人: | 山東大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16;B25J18/00;B25J19/00 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 李圣梅 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 策略 優化 算法 機器人 快速 裝配 方法 系統 | ||
本發明提出了基于近端策略優化算法的機器人快速裝配方法及系統,包括:力檢測單元、機械臂及控制系統;所述力檢測單元用來獲取機械臂末端力信息,并將力信息反饋至控制系統;所述控制系統根據機械臂位姿、機械臂末端裝配力/力矩作為狀態輸入訓練近端策略優化算法網絡,所述網路輸出機械臂所需的動作值,基于所述動作值控制機械臂進行軸孔裝配。近端策略優化算法增強了數據的利用效率,不用設置學習率的大小,具有更好的樣本復雜性和泛化能力。
技術領域
本發明屬于機器人裝配技術領域,尤其涉及基于近端策略優化算法的機器人快速裝配方法及系統。
背景技術
本部分的陳述僅僅是提供了與本發明相關的背景技術信息,不必然構成在先技術。
在機器人裝配操作中,由于裝配模型復雜、環境多變,通常的裝配策略并不準確且對不同裝配環境的適應能力差。主要有兩種方法進行機器人裝配操作,基于模型的裝配和基于無模型的裝配。
基于模型的裝配通過建立一個精確的環境接觸模型進行機器人裝配,但在實際的工業場景中,噪聲干擾、環境多變、裝配對象的形狀復雜并存在異構型等因素導致建立一個精確的環境接觸模型很難辦到。
基于無接觸的模型不依賴環境模型的建立,主要通過學習的方法對環境進行探索,得到一種精確的裝配策略。一般的學習方法對學習率的要求很高,學習率過高或過低都會導致訓練失敗,并且獎勵函數的設立也對環境的變化十分敏感,設計合適的獎勵函數十分困難。
上述方式的裝配導致的問題是:一般的學習方法無法實現對機器人的快速且準確的裝配,以及學習過程中各參數的選取十分困難。
發明內容
為克服上述現有技術的不足,本發明提供了基于近端策略優化算法的機器人快速裝配系統及方法,能夠不依賴于環境模型,提高裝配策略的泛化能力,減少對學習率等參數的調節。
為實現上述目的,本發明的一個或多個實施例提供了如下技術方案:
第一方面,公開了基于近端策略優化算法的機器人快速裝配系統,包括:
力檢測單元、機械臂及控制系統;
所述力檢測單元用來獲取機械臂末端力信息,并將力信息反饋至控制系統;
所述控制系統根據機械臂位姿、機械臂末端裝配力/力矩作為狀態輸入訓練近端策略優化算法網絡,所述網路輸出機械臂所需的動作值,基于所述動作值控制機械臂進行軸孔裝配。
作為一種實施例子,所述控制系統還包括模糊獎勵系統,所述模糊獎勵系統由兩個模糊層構成,其中第一模糊層的輸出是第二模糊層的輸入,最終第二模糊層的輸出作為負獎勵,正獎勵由裝配所用步數決定。
作為一種實施例子,所述第一模糊層的輸入為最大接觸力、最大接觸力矩、z軸方向的位移及裝配深度,上述輸入參數作為軸孔裝配參數。
第二方面,公開了基于近端策略優化算法的機器人快速裝配方法,包括:
控制機械臂螺旋搜孔,判斷是否找到孔位,若是,則獲取當前狀態并輸送至近端策略優化算法網絡,近端策略優化算法網絡輸出機械臂動作指令,機械臂基于所接收的指令進行插孔裝配,直至裝配結束。
作為一種實施例子,所述機械臂基于所接收的指令進行插孔裝配時,還基于獲取的當前狀態進行模糊邏輯處理,得到阻抗參數,基于阻抗參數及所接收的指令進行插孔裝配。
作為進一步優選的方案,基于獲取的當前狀態進行模糊邏輯處理,得到阻抗參數,具體為:由機械臂力/力矩和末端位姿通過模糊邏輯得到阻抗值。
作為進一步優選的方案,所述模糊邏輯通過機械臂力/力矩和末端位姿及阻抗值之間表格得到。
以上一個或多個技術方案存在以下有益效果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111353675.0/2.html,轉載請聲明來源鉆瓜專利網。





