[發明專利]一種基于離線策略強化學習的機械臂控制方法及系統有效
| 申請號: | 202210525911.0 | 申請日: | 2022-05-16 |
| 公開(公告)號: | CN114888801B | 公開(公告)日: | 2023-10-13 |
| 發明(設計)人: | 徐國政;李茂捷;劉元歸;高翔;王強;陳盛 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 周寵 |
| 地址: | 210046 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 離線 策略 強化 學習 機械 控制 方法 系統 | ||
1.一種基于離線策略強化學習的機械臂控制方法,其特征在于,包括:
采集目標體位姿以及機械臂末端的位姿和速度構成狀態信息s;
預訓練的最終抓取模型根據狀態信息s輸入至形成軌跡控制指令,并控制機械臂抓取所述目標體;
所述最終抓取模型構建過程包括:
在仿真器中改變目標體的形狀和姿態,構建抓取任務訓練集;
基于離線策略強化學習方法構建仿真抓取模型,基于元Q學習的仿真環境中通過抓取任務訓練集對抓取模型進行訓練,將訓練過程中仿真機械臂的軌跡數據、軌跡上下文變量作為遷移數據,存儲至經驗區Dmeta,獲得仿真抓取任務元訓練模型;
在真實環境中對仿真抓取任務元訓練模型進行設計次數的訓練,記錄機械臂的軌跡數據、軌跡變量作為遷移數據,存儲至經驗區Dnew;由經驗區Dnew和經驗區Dmeta中分別抽取設定數量的遷移數據組,計算遷移數據組的傾向性得分和歸一化有效采樣量;
利用經驗區Dmeta中的遷移數據再次對仿真抓取任務元訓練模型進行仿真訓練,訓練過程中基于傾向性得分和歸一化有效采樣量構建多任務目標作為遷移損失函數;根據遷移損失函數對仿真抓取任務元訓練模型進行迭代更新,獲得收斂的最終抓取模型。
2.根據權利要求1所述的一種基于離線策略強化學習的機械臂控制方法,其特征在于,在仿真器中改變目標體的形狀和姿態,構建抓取任務訓練集的方法包括:將目標體分別繞水平設置的旋轉軸a和豎直設置的旋轉軸b旋轉18次,且每次旋轉角度為10度,得到36個抓取任務,構建為抓取任務訓練集。
3.根據權利要求1所述的一種基于離線策略強化學習的機械臂控制方法,其特征在于,基于元Q學習的仿真環境中通過抓取任務訓練集對抓取模型進行訓練的方法包括:
仿真抓取模型控制仿真機械臂執行抓取任務訓練集中的抓取任務,形成仿真機械臂的軌跡數據,利用后視經驗回放算法計算仿真機械臂的軌跡數據的目標狀態和獎勵信號;
基于目標狀態和獎勵信號構造多任務的仿真訓練損失函數;根據仿真訓練損失函數對仿真抓取模型的參數進行更新,獲得損失函數收斂的仿真抓取任務元訓練模型。
4.根據權利要求3所述的一種基于離線策略強化學習的機械臂控制方法,其特征在于,所述多任務目標的仿真訓練損失函數的表達公式為:
yj=rj+γQ'(st+1,μ'(st+1|θμ')|θQ')
公式中,Li表示為執行第i抓取任務的損失值;N表示為批量數據的數量;sj表示為第j個數據中的機械臂狀態;st+1表示為在仿真環境中第j個數據中的后繼機械臂狀態;aj表示為第j個數據中的機械臂動作;rj表示為的第j個數據中的獎勵;Q(·)表示為仿真抓取任務元訓練模型中的價值網絡;Q′(·)表示為仿真抓取任務元訓練模型中的目標價值網絡;γ表示為獎勵折扣因子;μ′()表示為仿真抓取任務元訓練模型中的目標決策網絡;θμ′表示為目標決策網絡的參數;θQ′表示為目標價值網絡的參數。
5.根據權利要求1所述的一種基于離線策略強化學習的機械臂控制方法,其特征在于,軌跡上下文變量計算方法包括:利用門控循環單元GRU由軌跡數據中提取軌跡上下文變量。
6.根據權利要求1所述的一種基于離線策略強化學習的機械臂控制方法,其特征在于,所述遷移數據組的歸一化有效采樣量的計算方法包括;
通過遷移數據組訓練邏輯斯諦回歸模型作為傾向性得分估計函數β,利用分估計函數β計算遷移數據組的歸一化有效采樣量,表達公式為
公式中:ESS表示為遷移數據組的歸一化有效采樣量;β(·)表示為傾向性得分估計函數;xj表示為第j個遷移數據;m表示為遷移數據總數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210525911.0/1.html,轉載請聲明來源鉆瓜專利網。





