[發明專利]觸覺抓取策略的強化學習在審
| 申請號: | 202080089194.0 | 申請日: | 2020-10-16 |
| 公開(公告)號: | CN114845842A | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | J·特倫布萊;V·C·維賈伊·庫馬爾;T·赫爾曼斯 | 申請(專利權)人: | 輝達公司 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16;G06N3/00;G06N3/04;G06N3/063;G06N3/08 |
| 代理公司: | 北京市磐華律師事務所 11336 | 代理人: | 高偉 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 觸覺 抓取 策略 強化 學習 | ||
1.一種處理器,包括:
一個或更多個電路,用于使機器人抓取機制能夠至少部分地基于一個或更多個神經網絡抓取具有第一體積或小于所述第一體積的對象,所述神經網絡僅用體積等于所述第一體積的一個或更多個對象進行訓練。
2.如權利要求1所述的處理器,其中:
具有等于所述第一體積的體積的所述一個或更多個對象包括虛擬包圍盒;以及
至少部分地基于來自所述機器人抓取機制的一個或更多個傳感器的觸覺傳感器數據進一步訓練所述一個或更多個神經網絡。
3.如權利要求1所述的處理器,其中由所述機器人抓取機制抓取的對象具有不同于用于訓練所述一個或更多個神經網絡的所述一個或更多個對象的形狀。
4.如權利要求1所述的處理器,其中:
所述機器人抓取機制是具有多個手指的機械手;以及
所述多個手指中的每個手指配備有一個或更多個觸覺傳感器。
5.如權利要求2所述的處理器,其中:
相機獲取待抓取對象的圖像;
所述圖像用于估計所述對象的6d姿態;以及
所述虛擬包圍盒至少部分地基于所述對象的所述6d姿態而生成。
6.如權利要求2所述的處理器,其中所述虛擬包圍盒至少部分地基于所述對象的點云而生成。
7.如權利要求1所述的處理器,其中:
訓練所述神經網絡至少部分地基于人手進行抓取的一個或更多個圖像;以及
所述人手進行抓取的圖像是獎勵函數的組成部分。
8.一種系統,包括:
一個或更多個電路,用于使機器人抓取機制能夠至少部分地基于一個或更多個神經網絡抓取具有第一體積或小于所述第一體積的對象,所述神經網絡僅用體積等于所述第一體積的一個或更多個對象進行訓練;以及
一個或更多個存儲器,用于存儲所述一個或更多個神經網絡。
9.如權利要求8所述的系統,其中:
具有等于所述第一體積的體積的所述一個或更多個對象包括虛擬包圍盒;以及
至少部分地基于來自所述機器人抓取機制的一個或更多個傳感器的觸覺傳感器數據進一步訓練所述一個或更多個神經網絡。
10.如權利要求8所述的系統,其中訓練所述一個或更多個神經網絡至少部分地基于提供給所述系統的人類抓取演示來完成。
11.如權利要求8所述的系統,其中一個或更多個觸覺傳感器提供指示與所述對象接觸的力感測信息。
12.如權利要求8所述的系統,其中:
所述機器人抓取機制具有多個指部,所述指部具有多個鉸接關節;以及
所述系統的動作空間被定義為所述多個鉸接關節中的每一個的位置。
13.如權利要求8所述的系統,其中:
使用獎勵函數訓練所述一個或更多個神經網絡;以及
所述獎勵函數至少部分地基于所述機器人抓取機制相對于所述對象的位置。
14.如權利要求13所述的系統,其中:
所述獎勵函數至少部分地基于人手運動的演示;以及
所述獎勵函數至少部分地基于人手的指尖位置與所述機器人抓取機制的指尖位置之間的差。
15.如權利要求13所述的系統,其中所述獎勵函數至少部分地基于所述機器人抓取機制提升所述對象的能力。
16.一種處理器,包括:
一個或更多個電路,用于僅使用體積等于第一體積的一個或更多個對象訓練神經網絡以使機器人抓取機制能夠抓取具有所述第一體積或小于所述第一體積的對象。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于輝達公司,未經輝達公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202080089194.0/1.html,轉載請聲明來源鉆瓜專利網。





