[發明專利]一種先驗知識引導下的機器人操作技能學習系統及方法有效
| 申請號: | 202010535605.6 | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111618862B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 宋銳;李鳳鳴;李貽斌;王艷紅;劉義祥 | 申請(專利權)人: | 山東大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 李圣梅 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 先驗 知識 引導 機器人 操作技能 學習 系統 方法 | ||
1.一種先驗知識引導下的機器人操作技能學習系統,其特征是,包括:
物理環境模塊、數據存儲區、評價模塊及機器人操作技能策略學習模塊;
所述物理環境模塊包括傳感系統,所述傳感系統用于采集機器人作業環境信息及機器人的機械臂當前的操作狀態;所述傳感系統由視覺傳感器、六維力傳感器、關節傳感器組成,視覺傳感器用于提供當前操作環境圖像,預處理成特征矩陣P,六維力傳感器安裝在機器人的機械臂末端,用于獲得與零部件之間的操作力F和力矩信息M,關節傳感器用于獲得機械臂的運動狀態R,包括關節角度、角速度、關節扭矩、加速度,[P F M R]作為機械臂當前的操作狀態的描述;
所述評價模塊利用操作工藝的先驗知識對機器人探索操作策略進行評價并反饋獎懲值;所述先驗知識包括專家經驗和操作工藝規則;
所述數據存儲區將機器人的機械臂當前執行的動作、傳感系統輸出的機器人的機械臂當前的操作狀態、評價模塊給出的獎勵值組成多元組數,進行存儲;
所述機器人操作技能策略學習模塊基于所采集的作業環境信息、機械臂當前的操作狀態、機械臂執行完動作后的操作狀態以及反饋獎懲值進行操作策略的學習,建立操作接觸狀態與機械臂動作一一映射的專家知識庫,輸出機器人動作決策;
將專家經驗和操作工藝規則應用于機器人操作技能學習過程中;所述專家經驗是指通過人為設定操作過程中的多種典型接觸狀態與機械臂動作,借助多次實驗采集樣本通過學習訓練,從而建立的操作接觸狀態與機械臂動作一一映射的專家知識庫;所述操作工藝規則是指根據操作工藝設定的操作質量,通過建立影響操作質量的位姿偏移量、操作深度、操作接觸力的參數模型,從而得到的操作參數與操作質量之間的規則;
所述機器人操作技能策略學習模塊從數據存儲區獲取多元組數,首先判斷取出的當前操作狀態是否存在專家知識庫,如果是,根據專家知識庫存儲的數據直接映射到機器人的操作動作;如果不是,將取出的當前操作狀態輸入到建立的深度策略網絡模型中,輸出動作值,并同時將當前的操作狀態和動作值輸入到狀態-動作值評論家網絡中,計算出狀態-動作值,輸出機器人操作動作;
建立操作接觸狀態與機械臂動作一一映射的專家知識庫中的映射關系的建立通過極限學習機的方法得到,具體的步驟為:
2-1設定機械臂末端的初始位置,執行操作過程,記錄當前的操作狀態st;
2-2調整機械臂動作,使機械臂完成操作任務,記錄調整過程中的操作狀態st以及執行動作at;
2-3采集多組根據調整過程中的操作狀態st以及執行動作at,采用極限學習機的方法,經過訓練得到專家知識模型,專家知識庫建立在分類學習模型的基礎上。
2.一種先驗知識引導下的機器人操作技能學習方法,其特征是,包括:
采集機器人作業環境信息及機器人的機械臂當前的操作狀態;其中,視覺傳感器提供當前操作環境圖像,預處理成特征矩陣P,六維力傳感器安裝在機器人的機械臂末端,獲得與零部件之間的操作力F和力矩信息M,關節傳感器獲得機械臂的運動狀態R,包括關節角度、角速度、關節扭矩、加速度,[P F M R]作為機械臂當前的操作狀態的描述;數據存儲區將機器人的機械臂當前執行的動作、傳感系統輸出的機器人的機械臂當前的操作狀態、評價模塊給出的獎勵值組成多元組數,進行存儲;
利用操作工藝的先驗知識對機器人探索操作策略進行評價并反饋獎懲值;所述先驗知識包括專家經驗和操作工藝規則;所述專家經驗是指通過人為設定操作過程中的多種典型接觸狀態與機械臂動作,借助多次實驗采集樣本通過學習訓練,從而建立的操作接觸狀態與機械臂動作一一映射的專家知識庫;所述操作工藝規則是指根據操作工藝設定的操作質量,通過建立影響操作質量的位姿偏移量、操作深度、操作接觸力的參數模型,從而得到的操作參數與操作質量之間的規則;
基于所采集的作業環境信息、機械臂當前的操作狀態、機械臂執行完動作后的操作狀態以及反饋獎懲值進行操作策略的學習,建立操作接觸狀態與機械臂動作一一映射的專家知識庫,輸出機器人動作決策;所述輸出機器人動作決策包括:從數據存儲區取出數據樣本,將取出的樣本中的當前的操作狀態,首先輸入到專家知識庫,采用類識別的方法,判斷是否是庫中已有狀態,如果是,直接根據專家知識庫,發送出機械臂動作傳給控制器;如果不是,從數據存儲區取出四元組數,將當前的操作狀態作為輸入數據,輸入到建立的深度策略網絡模型中,輸出動作值,并同時將此四元組數中的當前操作狀態和動作值輸入到狀態-動作值評論家網絡中,計算出狀態-動作值,輸出機器人動作;將得到的動作的執行指令通過控制器輸出給機器人,機器人的機械臂執行動作;機器人的機械臂執行動作后,根據評價體系對機器人執行動作的策略進行評價,并把評價的獎勵值傳給數據存儲區;
其中,建立操作接觸狀態與機械臂動作一一映射的專家知識庫中的映射關系的建立通過極限學習機的方法得到,具體的步驟為:
設定機械臂末端的初始位置,執行操作過程,記錄當前的操作狀態;
調整機械臂動作,使機械臂完成操作任務,記錄調整過程中的操作狀態以及執行動作;
采集多組根據調整過程中的操作狀態以及執行動作,采用極限學習機的方法,經過訓練得到專家知識模型,專家知識庫建立在分類學習模型的基礎上。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010535605.6/1.html,轉載請聲明來源鉆瓜專利網。





