[發明專利]一種基于視覺信息的深度強化學習DDPG算法的機械臂抓取控制方法有效
| 申請號: | 202211218404.9 | 申請日: | 2022-10-05 |
| 公開(公告)號: | CN115464659B | 公開(公告)日: | 2023-10-24 |
| 發明(設計)人: | 尤波;武江博;李佳鈺 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16;B25J9/00 |
| 代理公司: | 北京圣州專利代理事務所(普通合伙) 11818 | 代理人: | 何世常 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視覺 信息 深度 強化 學習 ddpg 算法 機械 抓取 控制 方法 | ||
1.一種基于視覺信息的深度強化學習DDPG算法的機械臂抓取控制方法,該算法包括以下步驟:
步驟1:基于YOLOv4網絡融合卡爾曼濾波實現待抓取目標的檢測與跟蹤,獲得目標平面上的3D(x,y,θz)信息。
步驟2:設計一種能量約束的歸一化非線性獎勵函數Reward,在Ros+Gazebo中搭建UR3e仿真環境,通過在仿真中訓練網絡,使模型快速收斂,進而對模型遷移訓練控制現實中機械臂實現抓取。
步驟3:提出一種末端執行器速度平滑約束的示教機制,解決經典DDPG網絡在初始化訓練初由于動作隨機導致的有效數據少,算法效率低的問題。
2.如權利要求1所述的一種基于視覺信息的深度強化學習DDPG算法的機械臂抓取控制方法,步驟1具體步驟如下:
(1)使用coco數據集對深度學習網絡進行預訓練,收集待抓取物體照片,并按照voc數據集格式制作自己的數據集。在預訓練模型基礎上,根據制作的數據集繼續訓練網絡模型使網絡收斂。
(2)對目標檢測的結果,融合卡爾曼濾波算法,實現目標檢測與跟蹤。
(3)根據目標檢測框和待檢測對象的顏色、形狀等特征,計算待測物體的最小外接矩形,然后提取最小外接矩形的重心坐標(x,y)與繞z軸的轉角θz,得到目標的3D(x,y,θz)信息。
3.如權利要求1所述的一種基于視覺信息的深度強化學習DDPG算法的機械臂控制抓取方法,步驟2具體步驟如下:
(1)在步驟1中獲得目標物體的3D位姿基礎上,令繞x,y軸的轉角θx=θy=0,測量獲取攝像頭到機械臂底座的垂直距離補全z軸坐標,根據坐標變換關系,得到目標物體基于機械臂底座坐標系的6D(x,y,z,θx,θy,θz)位姿信息。
(2)定義狀態空間包括目標的位姿(6維)和微分變量,機械臂關節轉角(6維)和微分變量,末端執行器的位姿(6維)和微分變量。
(3)為了解決(多關節)機械臂因多解導致的機械臂抖動問題,設計基于能量約束的歸一化非線性獎勵函數,計算在最小轉角約束下機械臂的抓取控制的最優解。
Reward=-(α1RT+α2Rθ)
其中α是權重因子;RT是距離獎勵,其中d是機械臂末端執行器到目標位置的距離,ds是機械臂工作空間的距離大小,δ是一個人為的閾值;Rθ是控制機械臂花費的能量獎勵,θ是機械臂各個關節的轉角,θs是關節的轉動范圍。
通過對距離狀態和機械臂轉角狀態進行歸一化處理,把輸入到深度強化學習網絡的數據解算至相同的區間,統一輸入到神經網絡中數據的運算范圍,并且對變量進行二次函數關系的非線性的函數映射,使得網絡梯度下降的時候速率更快,從而加快訓練。并且,通過設計能量約束函數,對機械臂的轉角進行約束,改善機械臂因多解問題而抖動的缺點,計算在最小轉角約束下機械臂的抓取控制的最優解。
4.如權利要求1所述的一種基于視覺信息的深度強化學習DDPG算法的機械臂抓取控制方法,步驟3具體步驟如下:
(1)使用ROS的moveit機械臂功能包,并設置末端執行器以恒定速度移動為約束條件,實現UR3e臂的運動控制。
(2)在機械臂的運動過程中,訂閱UR3e過程中的action消息,獲得機械臂T時刻的位置、速度等狀態信息。使用距離獎勵對所有獲得的T時刻狀態計算獎勵。
(3)把基于機械臂模型控制產生的穩定的原始數據序列,打包為{St,At,Rt,St+1}格式,保存到經驗庫中,經驗庫的容量為M。
(4)在強化學習最初訓練的階段,使用基于示教方式保存的數據作為初始數據,解決DDPG網絡在最初訓練時,因為隨機動作導致的有效數據少、訓練效率低等問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211218404.9/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





