[發明專利]基于深度強化學習的端到端在軌自主加注控制系統及方法有效
| 申請號: | 202010693535.7 | 申請日: | 2020-07-17 |
| 公開(公告)號: | CN111844034B | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 解永春;陳奧;王勇;李林峰;唐寧;徐拴鋒 | 申請(專利權)人: | 北京控制工程研究所 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 中國航天科技專利中心 11009 | 代理人: | 程何 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 端到端 自主 加注 控制系統 方法 | ||
1.一種基于深度強化學習的端到端在軌自主加注控制系統,其特征在于:包括空間機械臂、特征提取系統、自主規劃系統和機械臂控制系統;
所述特征提取系統,一方面用于將環境信息處理為壓縮序列特征數據,發送至自主規劃系統,并接收自主規劃系統的反饋數據對自身參數進行訓練;另一方面用于實時采集環境信息,基于自身訓練好的參數將實時采集的環境信息處理為機械臂壓縮特征,并發送至自主規劃系統;所述環境信息包括機械臂視覺數據、機械臂關節角和角速度、以及力和力矩數據;
所述自主規劃系統,一方面用于接收壓縮序列特征數據對自身參數進行訓練,并向特征提取系統發送反饋數據;另一方面用于實時接收機械臂壓縮特征,利用自身訓練好的參數將機械臂壓縮特征解算為機械臂參考軌跡并發送至機械臂控制系統;
所述機械臂控制系統實時跟蹤機械臂參考軌跡,并將其轉換為電機控制力矩,控制機械臂運動,實現加注。
2.根據權利要求1所述的一種基于深度強化學習的端到端在軌自主加注控制系統,其特征在于:所述特征提取系統包括單目視覺敏感器、六自由度力傳感器和深度神經網絡特征提取模塊;
所述單目視覺敏感器用于采集機械臂的圖像數據,所述六自由度力傳感器用于采集力和力矩數據;
所述深度神經網絡特征提取模塊包括深度卷積神經網絡和全連接網絡,用于將環境信息處理為壓縮序列特征數據,發送至自主規劃系統,并接收自主規劃系統的反饋數據對深度卷積神經網絡和全連接網絡的參數進行訓練;基于自身訓練好的網絡參數將實時采集的環境信息處理為機械臂壓縮特征,并發送至自主規劃系統。
3.根據權利要求2所述的一種基于深度強化學習的端到端在軌自主加注控制系統,其特征在于:特征提取系統將視覺數據處理為壓縮序列特征數據,具體的方法包括如下步驟:
初始化深度卷積神經網絡的參數;
采集機械臂圖像,獲取當前視覺數據;
基于當前視覺數據,深度卷積神經網絡通過層級的卷積和池化操作提取反應圖像狀態的特征數據;
利用全連接網絡對所有特征數據進行特征抽象并進行結合,以得到完整的壓縮序列特征數據。
4.根據權利要求1所述的一種基于深度強化學習的端到端在軌自主加注控制系統,其特征在于:所述自主規劃系統包括評價網絡和策略網絡;
所述評價網絡以機械臂壓縮序列特征為輸入,利用長短時記憶網絡,基于貝爾曼方程對價值函數Q進行估計;價值函數反應了在當前狀態下采取動作所獲得的獎勵的期望值;
所述策略網絡以機械臂壓縮序列特征為輸入,利用長短時記憶網絡,基于策略梯度法對最優動作進行估計,估計結果為機械臂參考軌跡。
5.根據權利要求4所述的一種基于深度強化學習的端到端在軌自主加注控制系統,其特征在于:所述自主規劃系統,接收壓縮序列特征數據進行訓練包括如下步驟:
初始化自主規劃系統的參數;
控制機械臂與環境進行交互,基于壓縮序列特征數據,自主規劃系統在預設的與加注任務相關的獎賞函數的指導下持續更新策略網絡和評價網絡的參數,以擬合機械臂最優運動軌跡;當策略網絡和評價網絡收斂時,訓練完成。
6.一種基于深度強化學習的端到端在軌自主加注控制方法,其特征在于,包括如下步驟:
構建用于機械臂特征提取的深度卷積神經網絡和基于深度強化學習的自主規劃系統;
將視覺數據作為深度卷積神經網絡的輸入,經深度卷積神經網絡處理后,與環境特征數據進行特征壓縮后合并,輸出壓縮序列特征數據至自主規劃系統;所述環境特征數據包括機械臂關節角和角速度、以及力和力矩;
自主規劃系統接收壓縮序列特征數據進行訓練,并向深度卷積神經網絡發送反饋數據;
深度卷積神經網絡根據反饋數據對自身參數進行訓練,直至深度卷積神經網絡和自主規劃系統均收斂;
實時采集機械臂視覺數據,基于訓練好的深度卷積神經網絡將機械臂視覺數據處理為機械臂壓縮特征,與環境特征數據進行特征抽象后合并,并發送至訓練好的自主規劃系統;
訓練好的自主規劃系統將機械臂壓縮特征解算為機械臂參考軌跡,根據機械臂參考軌跡控制機械臂運動,實現加注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京控制工程研究所,未經北京控制工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010693535.7/1.html,轉載請聲明來源鉆瓜專利網。





