[發明專利]引導不確定性-意識策略優化:結合無模型和基于模型的策略用于有效采樣學習在審
| 申請號: | 202011310402.3 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112824061A | 公開(公告)日: | 2021-05-21 |
| 發明(設計)人: | J·特倫布萊;D·福克斯;M·李;C·弗洛倫薩;N·D·拉特里夫;A·加爾格;F·T·拉莫斯 | 申請(專利權)人: | 輝達公司 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 北京市磐華律師事務所 11336 | 代理人: | 高偉 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 引導 不確定性 意識 策略 優化 結合 模型 基于 用于 有效 采樣 學習 | ||
1.一種計算機實現的方法,包括:
至少部分地基于來自第一感知系統的信息,將機器人移動到使用物理模型的第一方法控制的區域內;
確定由所述第一感知系統產生的所述信息的不確定性;
至少部分地基于所述不確定性來確定所述機器人在所述區域中;
作為確定所述機器人在所述區域中的結果,在使用由第二感知系統產生的信息的第二方法的控制下移動所述機器人以執行任務。
2.根據權利要求1所述的方法,其中所述第二方法不依賴于所述物理模型。
3.根據權利要求2所述的方法,其中所述第二方法是無模型方法。
4.根據權利要求1所述的方法,其中,所述第一方法是基于模型的方法。
5.根據權利要求1所述的方法,其中:
所述第一感知系統是固定相機;以及
所述第二感知系統是安裝在機器人上的相機。
6.根據權利要求1所述的方法,還包括至少部分地基于所述信息的所述不確定性來確定所述區域。
7.根據權利要求1所述的方法,還包括:
確定所述機器人在所述區域之外;以及
作為確定所述機器人在所述區域之外的結果,使用所述第一方法將所述機器人移動到所述區域內。
8.根據權利要求1所述的方法,其中,所述不確定性是所述區域的多個姿勢以及每個姿勢的相關聯的權重的非參數分布。
9.根據權利要求1所述的方法,其中,所述不確定性是參數分布。
10.根據權利要求1所述的方法,其中,所述區域是一區域中的所述第二方法可用于競爭任務的子區域。
11.根據權利要求1所述的方法,其中,使用自編碼器來執行所述第二方法,所述自編碼器被訓練為在給定來自所述第二感知系統的輸入下完成任務。
12.一種計算機系統,包括:
一個或更多個處理器;以及
存儲可執行指令的計算機可讀存儲器,所述可執行指令作為由一個或更多個處理器執行的結果,使得所述計算機系統:
使用機器人的環境的模型將所述機器人移動到區域,所述模型使用來自第一相機的圖像數據進行定向;
使用與所述第一相機關聯的不確定性信息來確定所述模型的不確定性;
至少部分地基于所述模型的不確定性來確定所述機器人在所述區域中;以及
作為確定所述機器人在所述區域中的結果,在使用來自第二相機的圖像數據訓練的機器學習系統的控制下,使用所述機器人執行任務。
13.根據權利要求12所述的計算機系統,其中所述第二相機是機器人上的腕上相機。
14.根據權利要求12所述的計算機系統,其中,作為完成所述任務的結果,所述計算機系統使用所述任務的結果來更新所述模型的不確定性。
15.根據權利要求14所述的計算機系統,其中所述任務的結果指示所述模型的姿勢。
16.根據權利要求12所述的計算機系統,其中通過使用深度物體姿態估計器至少處理來自所述第一相機的所述圖像數據來定向所述模型。
17.根據權利要求12所述的計算機系統,其中,所述第一相機和所述第二相機是不同的相機。
18.根據權利要求12所述的計算機系統,其中來自所述第一相機的所述圖像數據用于生成與來自所述第一相機的所述圖像數據一致的多個可能的姿勢。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于輝達公司,未經輝達公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011310402.3/1.html,轉載請聲明來源鉆瓜專利網。





