[發明專利]基于機器人操作技能獲得的弱剛度零部件裝配系統及方法有效
| 申請號: | 201910533739.1 | 申請日: | 2019-06-19 |
| 公開(公告)號: | CN110253577B | 公開(公告)日: | 2021-04-06 |
| 發明(設計)人: | 宋銳;李鳳鳴;李貽斌;馬昕 | 申請(專利權)人: | 山東大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 張慶騫 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器人 操作技能 獲得 剛度 零部件 裝配 系統 方法 | ||
1.一種基于機器人操作技能獲得的弱剛度零部件裝配系統,其特征在于,包括:
視覺圖像采集部,其被配置為采集當前裝配圖像;
末端力檢測部,其被配置為采集裝配對象相互作用時的接觸力/力矩;
控制部,其被配置為:
接收當前裝配圖像及裝配對象相互作用時的接觸力/力矩并進行信息融合;
從融合信息中提取裝配狀態特征,并作為操作技能學習網絡的輸入;
根據預設回報評價函數的反饋值來訓練操作技能學習網絡,輸出決策指令至裝配動作執行部;其中,
訓練操作技能學習網絡包括:將采樣樣本中下一狀態特征矩陣作為主網絡和目標網絡的輸入向量,分別輸出Q值對應的機械臂動作列表,主網絡的輸出動作為:表示Q函數值最大時對應的動作a值;依賴貝爾曼方程,表示主網絡的參數,s表示裝配狀態,R表示累積回報;
利用主網絡輸出動作對應的索引值對目標網絡輸出的機械臂動作列表進行選擇,得到目標網絡對應的機械臂動作,從而生成目標網絡值為:
其中,表示目標網絡的參數,st+1和rt+1分別表示下一個時刻的裝配狀態和回報值,表示主網絡的輸出動作值,γ∈[0,1]是折扣因子;
將采樣樣本中當前裝配狀態特征矩陣輸入到主網絡中,輸出對應的機械臂動作,生成當前預測網絡值;
根據目標網絡值和當前預測網絡值得到機器人操作技能學習網絡的目標損失函數,優化損失函數,得到網絡最優權值;
裝配動作執行部,其被配置響應決策指令并執行相應裝配動作。
2.如權利要求1所述的一種基于機器人操作技能獲得的弱剛度零部件裝配系統,其特征在于,在所述控制部中,當前裝配圖像及裝配對象相互作用時的接觸力/力矩進行信息融合之前還包括:
對裝配圖像進行深度卷積網絡特征提取處理。
3.如權利要求1所述的一種基于機器人操作技能獲得的弱剛度零部件裝配系統,其特征在于,在所述控制部中,當前裝配圖像及裝配對象相互作用時的接觸力/力矩進行信息融合之前還包括:
對裝配對象相互作用時的接觸力/力矩進行濾波預處理。
4.如權利要求3所述的一種基于機器人操作技能獲得的弱剛度零部件裝配系統,其特征在于,在所述控制部中,采用高斯濾波對裝配對象相互作用時的接觸力/力矩進行濾波預處理。
5.如權利要求1所述的一種基于機器人操作技能獲得的弱剛度零部件裝配系統,其特征在于,在所述控制部中,根據預設回報評價函數的反饋值來訓練操作技能學習網絡之后,還包括測試訓練好的操作技能學習網絡,其過程為:
隨機設定初始裝配狀態;
獲取當前經過融合處理后的裝配狀態特征;
輸入到已訓練好的操作技能學習網絡中,輸出決策指令至裝配動作執行部;
根據裝配動作執行部執行的相應裝配動作后圖像來判斷裝配是否成功,若是,則結束,否則繼續獲取當前經過融合處理后的裝配狀態特征,根據當前裝配狀態進行調整決策指令。
6.如權利要求5所述的一種基于機器人操作技能獲得的弱剛度零部件裝配系統,其特征在于,在所述控制部中,根據裝配動作執行部執行的相應裝配動作后圖像來判斷裝配是否成功的過程為:
建立裝配成功狀態的圖像模板庫;
獲取裝配最終狀態的圖像,采用相關系數法與模板庫進行匹配;
若裝配狀態與模板匹配成功,則設置參數n=1,否則n=0。
7.如權利要求1所述的一種基于機器人操作技能獲得的弱剛度零部件裝配系統,其特征在于,在所述控制部中,操作技能網絡結構包含4個卷積網絡和2個全連接層,其中2個全連接層構成競爭架構。
8.如權利要求1所述的一種基于機器人操作技能獲得的弱剛度零部件裝配系統,其特征在于,所述視覺圖像采集部為深度相機。
9.如權利要求1所述的一種基于機器人操作技能獲得的弱剛度零部件裝配系統,其特征在于,所述末端力檢測部為六維力傳感器,裝配動作執行部為六軸機械臂。
10.一種如權利要求1-9中任一項所述的基于機器人操作技能獲得的弱剛度零部件裝配系統的裝配方法,其特征在于,該方法在控制部內完成,包括:
接收當前裝配圖像及裝配對象相互作用時的接觸力/力矩并進行信息融合;
從融合信息中提取裝配狀態特征,并作為操作技能學習網絡的輸入;
根據預設回報評價函數的反饋值來訓練操作技能學習網絡,輸出決策指令至裝配動作執行部,由裝配動作執行部響應決策指令并執行相應裝配動作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910533739.1/1.html,轉載請聲明來源鉆瓜專利網。





