[發明專利]基于深度強化學習與動態運動基元的機械臂自主抓取方法有效
| 申請號: | 202010323721.1 | 申請日: | 2020-04-22 |
| 公開(公告)號: | CN111618847B | 公開(公告)日: | 2022-06-21 |
| 發明(設計)人: | 袁銀龍;華亮;李俊紅;徐一鳴;程赟 | 申請(專利權)人: | 南通大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16;B25J19/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 226019 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 動態 運動 機械 自主 抓取 方法 | ||
1.基于深度強化學習與動態運動基元的機械臂自主抓取方法,其特征在于:包括如下步驟:
步驟1:安裝攝像機圖組件,確保識別區域不被遮擋,并對抓取目標區域圖像進行預處理,并作為狀態信息發送給深度強化學習智能體;
步驟2:基于所述狀態信息和深度強化學習原理構建局部策略近端優化訓練模型;
步驟3:融合動態運動基元和模仿學習構建一種新的混合運動基元模型;
步驟4:基于所述的新的混合運動基元模型訓練機械臂自主抓取物體;
在步驟3中,融合動態運動基元和模仿學習構建一種新的混合運動基元模型,包括一種改進的動態運動基元算法,其相應的動力學方程為:
其中τ是一個時間常數,αz是一個預先設定的固定參數,滿足在終止時刻1/τ時z≈0,gf是角度期望值,是期望的最終速度,gm是移動目標,變換函數f(z)使得系統生成任意復雜的非線性軌跡,其定義形式為:
其中ωi是第i個可調參數,C是可調參數的總數,ψi(z)是每一個可調參數對應的權重值,其定義形式為:
該函數是由中心為ci寬度為hi的歸一化高斯函數構成;
由于變換函數f(z)在參數上是線性的,局部加權回歸算法來求解參數ωi,即最小化目標函數為:
其中ftref是示教軌跡中期望的變換函數值,t∈{1,2,…,T}表示演示的時間步長;
新的混合運動基元模型是指通過隨機的抽取一小批運動基元來計算所有運動基元的權重得到新的運動軌跡,新的運動基元可表示為:
其中權重參數λi(s)=exp(-αm||s-si||),其表示運動基元μi(s)對新的運動基元的貢獻程度,s為機械臂狀態信息。
2.根據權利要求1所述的基于深度強化學習與動態運動基元的機械臂自主抓取方法,其特征在于:在步驟1中,安裝攝像機圖組件,確保識別區域不被遮擋,并對抓取目標區域圖像進行采集處理,作為狀態信息發送給深度強化學習智能體,包括:
攝像機,所述攝像機為雙目攝像機Bumblee2,所述攝像機安裝在機械臂距離底座上方0.8-1米,且在識別區域正前方,確保機械臂開始工作時無遮擋;攝像機拍攝的抓取目標區域的圖像信息,經采集預處理后,該圖像信息將作為環境狀態信息被系統接收;
機械臂,所述機械臂為具有5個自由度的UR5機器人,各關節能夠靈活運動。
3.根據權利要求1所述的基于深度強化學習與動態運動基元的機械臂自主抓取方法,其特征在于:在步驟2中,基于所述狀態和深度強化學習原理構建局部策略近端優化訓練模型包括:在系統中通過設計獎賞函數來評判機械臂是否抓取到物體,獎賞函數的設定為稀疏的,當機械臂完成抓取任務的時候獲得獎賞為+1,其它時刻為零,從而引導機械臂快速完成抓取任務獲得更多的獎賞回報;機械臂從初始狀態到完成抓取任務的運動軌跡通過一組元參數δ表示,是機械臂到達目標位置時對應的關節角度和角速度的值,局部策略近端優化訓練模型的目的就是訓練學習一個從狀態s到元參數δ的映射函數δ(s);將元參數自我學習問題建模為強化學習問題,目標函數可以表示為:
其中Kullback-Leibler距離被用來約束策略更新的幅度大小,使策略梯度算法具有更強的魯棒性,超參數KLtarget為期望的變化,依據深度強化學習策略梯度更新規則,依據所述目標函數優化網絡參數θ。
4.根據權利要求3所述的基于深度強化學習與動態運動基元的機械臂自主抓取方法,其特征在于:在步驟4中,基于所述新的混合運動基元模型訓練機械臂自主抓取物體,包括:
設計訓練環境,其中所述的訓練環境中的控制對象是機械臂,機械臂收到控制決策信息后,執行抓取任務,完成一個運動周期;
在所述運動周期內,智能體首先通過深度強化學習模型得到當前狀態st對應的元參數δt,之后依據新的混合運動基元模型得到關節運動軌跡并形成控制決策信息,機械臂執行運動后得到新的狀態st+1和獎賞回報rt;
把訓練樣本(st,at,rt,st+1)存儲到經驗池中,用于深度強化學習參數訓練;
所述機械臂通過智能體與環境不斷交互訓練,直至機械臂能夠自主的完成抓取任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南通大學,未經南通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010323721.1/1.html,轉載請聲明來源鉆瓜專利網。





