[發明專利]一種應用于大批量重復性加工的工業機器人學習方法在審
| 申請號: | 201810921161.2 | 申請日: | 2018-08-13 |
| 公開(公告)號: | CN108927806A | 公開(公告)日: | 2018-12-04 |
| 發明(設計)人: | 李建剛;鐘剛剛;吳雨璁 | 申請(專利權)人: | 哈爾濱工業大學(深圳) |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 深圳市添源知識產權代理事務所(普通合伙) 44451 | 代理人: | 黎健任 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 學習 工業機器人 加工 機器人 應用 采集狀態信息 傳感器采集 傳感器數據 動力學模型 工作效率 加工周期 控制策略 學習方式 傳統的 規模化 調試 震蕩 采集 改進 | ||
1.一種應用于大批量重復性加工的工業機器人學習方法,其特征在于:該學習方法是基于學習模型進行學習,其包括如下步驟:
S001、傳感器采集狀態信息;
S002、根據采集的信息進行學習;
S003、判斷加工質量以及加工周期是否達到要求,若達到要求則結束學習,否則重新采集狀態信息重新學習。
2.根據權利要求1所述的應用于大批量重復性加工的工業機器人學習方法,其特征在于:所述學習模型由環境單元、機器人學習單元和加工執行單元組成;其中,環境單元至少包括加工質量測量單元,機器人學習單元包括狀態觀測單元、數據處理單元及決策制定單元,加工執行單元至少包括機器人和定位器;
所述環境單元,由加工工件狀態測量傳感器和機器人狀態末端測量觀測器組成,所述加工工件狀態測量傳感器采集所加工工件的視覺信息,所述視覺信息至少包括工件的幾何形狀和表面光滑度信息;所述機器人狀態末端測量觀測器采集機器人的位置、速度、加速度以及關節扭矩的信息;
所述狀態觀測單元,所述狀態觀測單元通過通信線路獲取所述環境單元采集的信息,并將獲取的信息轉化成數據格式;
所述數據處理單元,接收并處理所述狀態觀測單元轉化成數據格式的信息;所述數據處理單元包括獎勵計算單元和函數更新單元,其中,所述獎勵計算單元通過獎勵函數設置單元設置即時獎勵r,所述獎勵計算單元對所述狀態觀測單元的信息進行計算,計算完成后將結果參數輸送至函數更新單元,函數更新單元采用神經網絡訓練的方式對獲取到的參數進行更新,直到得到最終學習參數,將最終學習參數存儲起來,通過神經網絡做出行為決策,再進行強化學習到一個確定性策略以驅動機器人進行工作。
3.根據權利要求2所述的應用于大批量重復性加工的工業機器人學習方法,其特征在于:所述強化學習通過假設機器人由狀態信息到行為定義為策略π,從時刻t開始獲得的累積回報定義為:根據累積回報通過Qπ(st,at)=Eπ[Rt|st,at]求取期望回報;其中,Qπ(st,at)表示依據策略π在狀態st下采取行為at時的期望回報;結合累積回報和取期望回報的公式,得到期望回報的遞歸形式公式:
根據遞歸形式公式不斷使用上次更新的策略進行決策。
4.根據權利要求2所述的應用于大批量重復性加工的工業機器人學習方法,其特征在于:所述強化學習采用確定性策略的強化學習方式,其具體過程包括如下步驟:
S201,初始化行為網絡μ(s|θμ),參數表示為θQ和評價網絡Q(s,a|θQ),參數表示為θμ,并初始化目標網絡Q′(s,a|θQ′)和μ′(s|θμ′),參數是θQ′←θQ,θμ′←θμ。
S202,初始化緩沖容器R;
S203,接受狀態觀測單元的狀態信息st;
S204,根據當前策略并施加一定的噪聲來選擇執行行為at;
S205,觀測得到的獎勵rt,并觀測下一狀態信息st+1;
S206,將四元組<st,at,rt,st+1>存在緩沖容器中;
S207,從緩沖容器中隨機選取一批四元組樣本進行訓練;
S208,更新評價網絡參數;
S209,更新行為網絡參數;
S210,判斷學習次數是否超出預設值或加工質量是否足夠好;
S211,將評價網絡和行為網絡的參數傳輸到主機存儲,結束學習。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(深圳),未經哈爾濱工業大學(深圳)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810921161.2/1.html,轉載請聲明來源鉆瓜專利網。





