[發明專利]一種先驗知識引導下的機器人操作技能學習系統及方法有效
| 申請號: | 202010535605.6 | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111618862B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 宋銳;李鳳鳴;李貽斌;王艷紅;劉義祥 | 申請(專利權)人: | 山東大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 李圣梅 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 先驗 知識 引導 機器人 操作技能 學習 系統 方法 | ||
本公開提出了一種先驗知識引導下的機器人操作技能學習系統及方法,包括:物理環境模塊、評價模塊及機器人操作技能策略學習模塊;物理環境模塊采集機器人作業環境信息及當前的操作狀態;評價模塊利用操作工藝的先驗知識對機器人探索操作策略進行評價并反饋獎懲值;機器人操作技能策略學習模塊基于所采集的環境信息、操作狀態以及反饋獎懲值進行操作策略的學習,建立操作接觸狀態與機械臂動作一一映射的專家知識庫,輸出機器人動作決策。有效提高學習效率,降低學習難度。
技術領域
本公開屬于機器學習技術領域,尤其涉及一種先驗知識引導下的機器人操作技能學習系統及方法。
背景技術
本部分的陳述僅僅是提供了與本公開相關的背景技術信息,不必然構成在先技術。
強化學習已經成為機器人操作技能學習的主要方法,它通過模仿人類的學習方式,在不進行顯式教學的情況下,利用傳感器反饋信息,通過不斷地與環境交互,得到外部的獎勵或懲罰信號,適應不斷變化的環境,采取適當的動作。
但是發明人在研究中發現,目前的大部分學習方法完全是從零開始探索,訓練時間較長,使得機器人技能學習的效率下降。
發明內容
為克服上述現有技術的不足,本公開提供了一種先驗知識引導下的機器人操作技能學習系統,將專家經驗知識和操作操作工藝規則的先驗知識應用于強化學習的方法,減少機器人操作技能學習過程中的無效探索,有效提高學習效率,降低學習難度。
為實現上述目的,本公開的一個或多個實施例提供了如下技術方案:
一方面,公開了一種先驗知識引導下的機器人操作技能學習系統,包括:
物理環境模塊、評價模塊及機器人操作技能策略學習模塊;
所述物理環境模塊采集機器人作業環境信息及當前的操作狀態;
所述評價模塊利用操作工藝的先驗知識對機器人探索操作策略進行評價并反饋獎懲值;
所述機器人操作技能策略學習模塊基于所采集的環境信息、操作狀態以及反饋獎懲值進行操作策略的學習,建立操作接觸狀態與機械臂動作一一映射的專家知識庫,輸出機器人動作決策。
另一方面,公開了一種先驗知識引導下的機器人操作技能學習方法,包括:
采集機器人作業環境信息及當前的操作狀態;
利用操作工藝的先驗知識對機器人探索操作策略進行評價并反饋獎懲值;
基于所采集的環境信息、操作狀態以及反饋獎懲值進行操作策略的學習,建立操作接觸狀態與機械臂動作一一映射的專家知識庫,輸出機器人動作決策。
以上一個或多個技術方案存在以下有益效果:
本公開技術方案結合反饋探索策略,將專家經驗知識和操作工藝規則的先驗知識應用于機器人操作技能學習過程中,有效提高學習效率,降低學習難度。
本公開技術方案結合操作工藝規則的評價體系,可以根據規則進行靈活調整,有利于提高機器人操作任務的靈活性。
本公開技術方案操作技能學習模塊主要解決機器人遇到未知的裝配狀態時,能夠通過自主探索學習并找到接下來要執行的動作。
附圖說明
構成本公開的一部分的說明書附圖用來提供對本公開的進一步理解,本公開的示意性實施例及其說明用于解釋本公開,并不構成對本公開的不當限定。
圖1為本公開實施例機器人操作技能學習系統框架圖;
圖2為本公開實施例先驗知識引導下的機器人操作操作技能學習方法框架圖;
圖3為本公開實施例基于深度策略梯度算法訓練流程圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010535605.6/2.html,轉載請聲明來源鉆瓜專利網。





