[發明專利]機器人行為訓練方法、裝置、系統、存儲介質及設備在審
| 申請號: | 201910028901.4 | 申請日: | 2019-01-12 |
| 公開(公告)號: | CN109760050A | 公開(公告)日: | 2019-05-17 |
| 發明(設計)人: | 何德裕 | 申請(專利權)人: | 魯班嫡系機器人(深圳)有限公司 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16;B25J19/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518173 廣東省深圳市龍崗*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器人行為 預處理模型 存儲介質 決策數據 機器人模型 初始模型 行為動作 行為過程 機器人 申請 學習 | ||
1.一種機器人行為訓練方法,其特征在于,所述機器人行為訓練方法包括:
獲取執行專家的行為過程中的決策數據;其中,所述決策數據包括多個行為數據和對應的觀測數據;
基于所述決策數據,進行模型自主學習,得到機器人行為模型。
2.根據權利要求1所述的機器人行為訓練方法,其特征在于,所述基于所述決策數據,進行模型自主學習,得到機器人行為模型包括:
基于所述決策數據,訓練初始模型,得到預處理模型;
進行所述預處理模型自主學習,得到所述機器人行為模型。
3.根據權利要求1所述的機器人行為訓練方法,其特征在于,所述基于所述決策數據,進行模型自主學習,得到機器人行為模型包括:
基于所述決策數據,進行初始模型自主學習,得到所述機器人行為模型。
4.根據權利要求1、2或3所述的智能體行為訓練方法,其特征在于,所述獲取執行專家的行為過程中的決策數據包括:
獲取所述執行專家的行為過程中的多個當前時刻的行為數據;
獲取所述執行專家的行為過程中第一傳感器發送的所述多個當前時刻的所述觀測數據;其中,所述當前時刻的行為數據與所述當前時刻的觀測數據相對應。
5.根據權利要求1、2或3所述的智能體行為訓練方法,其特征在于,所述獲取執行專家的行為過程中的決策數據包括:
獲取所述執行專家的行為過程中第二傳感器發送的多個當前時刻所述行為數據的相關信息;
根據所述相關信息,得到多個上一時刻的所述行為數據;
獲取所述執行專家的行為過程中第一傳感器發送的所述多個上一時刻的所述觀測數據;其中,所述上一時刻的所述行為數據與所述上一時刻的所述觀測數據相對應。
6.根據權利要求1、2或3所述的機器人行為訓練方法,其特征在于,所述觀測數據包括:
圖像或根據所述圖像生成的機器人的位姿或位置數據、力反饋數據、驅動單元的運動量反饋數據、測距數據、速度或加速度測量數據、電流或電壓測量數據、時間數據和/或溫度數據。
7.根據權利要求1、2或3所述的機器人行為訓練方法,其特征在于,所述行為數據包括:目標位姿或位置、機器人的各個驅動單元的運動量或機器人的運動量。
8.根據權利要求1、2或3所述的機器人行為訓練方法,其特征在于,所述行為包括:
從散裝物或規則擺放物中抓取目標物;
裝配目標物;
放置目標物;和/或
從一個位置運動到另一位置。
9.一種機器人行為訓練控制裝置,其特征在于,所述機器人行為訓練控制裝置包括:
決策數據獲取模塊,用于獲取執行專家的行為過程中的決策數據;其中,所述決策數據包括多個行為數據和對應的觀測數據;
行為模型生成模塊,用于基于所述決策數據,進行模型自主學習,得到機器人行為模型。
10.一種機器人行為訓練系統,其特征在于,包括:
行為數據生成裝置,用于生成行為數據,并將所述行為數據發送給所述控制裝置;
第一傳感器,用于獲取所述行為數據對應的觀測數據,并將所述觀測數據發送給所述控制裝置;
控制裝置,用于獲取執行專家的行為過程中的決策數據;其中,所述決策數據包括多個所述行為數據和對應的所述觀測數據;基于所述決策數據,進行模型自主學習,得到機器人行為模型。
11.根據權利要求10所述的機器人行為訓練系統,其特征在于,所述機器人行為訓練系統還包括:
機器人,用于在示教下執行所述專家的行為。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于魯班嫡系機器人(深圳)有限公司,未經魯班嫡系機器人(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910028901.4/1.html,轉載請聲明來源鉆瓜專利網。





