[發明專利]一種基于深度強化學習的機器人旋擰閥門系統及方法有效
| 申請號: | 202110056826.X | 申請日: | 2021-01-15 |
| 公開(公告)號: | CN112894808B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 宋銳;尹心彤;李鳳鳴;劉義祥;李貽斌 | 申請(專利權)人: | 山東大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 張慶騫 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 機器人 閥門 系統 方法 | ||
1.一種基于深度強化學習的機器人旋擰閥門系統,其特征在于,包括:
深度相機,其用于采集閥門圖像并傳送至控制器;
六維力傳感器,其用于采集旋擰閥門過程中的機械臂末端力/力矩信息并傳送至控制器;
末端執行器,其位于機器臂本體末端,用于帶動閥門旋轉;
控制器,其用于:
接收閥門圖像并提取閥門特征,解算出閥門位姿;
根據閥門位姿,控制機械臂運動至旋擰閥門的初始期望作業位置,并使得機械臂處于期望初始姿態;
根據機械臂當前姿態和機械臂末端當前力/力矩信息獲取當前旋擰狀態,再基于深度強化學習的機器人旋擰閥門模型,輸出機械臂動作決策指令。
2.如權利要求1所述的基于深度強化學習的機器人旋擰閥門系統,其特征在于,機械臂動作決策指令包括機械臂位置調整大小和姿態偏轉角度。
3.如權利要求1所述的基于深度強化學習的機器人旋擰閥門系統,其特征在于,所述控制器,還用于通過逆運動學求解各關節角,控制機械臂進行相應的姿態和位置調整,以至在旋擰過程中末端工具軸線相對閥門手輪軸線相重合且以恒力跟蹤閥門軸向位置,保證旋擰過程順利進行并完成整個閥門旋擰過程。
4.如權利要求1所述的基于深度強化學習的機器人旋擰閥門系統,其特征在于,機械臂的期望初始姿態為:末端執行器軸線垂直于閥門所在平面,且與閥門軸線重合,旋擰插進閥門手輪內。
5.如權利要求1所述的基于深度強化學習的機器人旋擰閥門系統,其特征在于,所述六維力傳感器安裝在機械臂末端法蘭盤上,介于第六臂與末端執行器之間。
6.如權利要求1所述的基于深度強化學習的機器人旋擰閥門系統,其特征在于,所述控制器,還用于根據提取的閥門特征來判斷閥門關閉狀態;若閥門關閉,則結束作業;若未關閉,則繼續進行旋擰作業。
7.如權利要求1所述的基于深度強化學習的機器人旋擰閥門系統,其特征在于,所述控制器,還用于評價旋擰過程是否完成:當末端執行器z向位移不小于閥門關閉所需軸向位移,且檢測z軸向受力不小于所設力閾值時,閥門關閉,結束旋擰過程。
8.如權利要求1所述的基于深度強化學習的機器人旋擰閥門系統,其特征在于,基于深度強化學習的機器人旋擰閥門模型包括評價網絡、策略網絡以及目標評價網絡和目標策略網絡,評價網絡根據所采取策略計算當前Q值,更新網絡參數;目標評價網絡負責計算目標Q值,策略網絡根據評價網絡的評價結果進行網絡參數的更新;目標策略網絡根據下一旋擰狀態選擇機械臂下一最優動作,并反饋給目標評價網絡;Q值為在初始旋擰狀態下機械臂采取一系列動作后的累積獎勵。
9.如權利要求1所述的基于深度強化學習的機器人旋擰閥門系統,其特征在于,目標策略網絡和目標評價網絡與策略網絡和評價網絡結構完全相同。
10.一種基于如權利要求1-9中任一項所述的基于深度強化學習的機器人旋擰閥門系統的工作方法,其特征在于,包括:
采集閥門圖像,提取閥門特征,解算出閥門位姿;
根據閥門位姿,控制機械臂運動至旋擰閥門的初始期望作業位置,并使得機械臂處于期望初始姿態;
采集旋擰閥門過程中的機械臂末端力/力矩信息,再根據機械臂當前姿態獲取當前旋擰狀態,基于深度強化學習的機器人旋擰閥門模型,輸出機械臂動作決策指令。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110056826.X/1.html,轉載請聲明來源鉆瓜專利網。





