[發明專利]使用圖像嵌入優化機器人代理的策略控制器在審
| 申請號: | 201880038469.0 | 申請日: | 2018-09-20 |
| 公開(公告)號: | CN110730970A | 公開(公告)日: | 2020-01-24 |
| 發明(設計)人: | Y.切博塔;P.塞爾馬尼特;H.林奇 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06N3/00 | 分類號: | G06N3/00;G06N3/04;G06N3/08 |
| 代理公司: | 11105 北京市柳沈律師事務所 | 代理人: | 金玉潔 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 執行機器人 演示 神經網絡優化 策略控制器 方法和裝置 機器人代理 環境交互 環境圖像 神經網絡 優化策略 控制器 變體 嵌入 圖像 代理 | ||
提供了用于優化策略控制器以控制與環境交互以執行機器人任務的機器人代理的系統、方法和裝置。方法之一包括使用神經網絡優化策略控制器,該神經網絡生成環境圖像的數字嵌入和執行機器人任務的變體的另一代理的演示圖像的演示序列。
對相關申請的交叉引用
本申請要求于2017年9月20日提交的美國臨時專利申請序列號No.62/561,133的優先權,其公開內容通過引用整體并入本文。
技術領域
本說明書涉及強化學習。
背景技術
在強化學習系統中,代理響應于接收表征環境的當前狀態的觀察,通過執行由強化學習系統選擇的動作來與環境交互。
一些強化學習系統根據神經網絡的輸出,響應于接收給定的觀察,選擇要由代理執行的動作。神經網絡是機器學習模型,它使用一層或多層非線性單元來預測接收的輸入的輸出。一些神經網絡除輸出層外還包括一個或多個隱藏層。每個隱藏層的輸出用作網絡中下一層、即下一隱藏層或輸出層的輸入。網絡的每個層根據相應的參數集合的當前值從接收的輸入生成輸出。
發明內容
本說明書描述了一種系統,該系統被實現為在一個或多個位置的一個或多個計算機上的計算機程序,其優化策略控制器,該策略控制器用于選擇將由與環境交互的機器人代理執行的動作。具體地,策略控制器可以用于選擇動作,使得機器人代理可以成功地執行機器人任務,例如,對象抓取任務、對象移動任務、導航任務或需要代理與真實環境交互以用于一些特定目的的其他任務。在一些情況下,策略控制器是以軌跡為中心的控制器,例如時變高斯控制器。在其他情況下,策略控制器是深度神經網絡。
可以在特定實施例中實現本說明書中描述的主題,以實現以下優點中的一個或多個。本說明書中描述的系統可以利用神經網絡,其被訓練來生成數字嵌入,該數字嵌入對于某些變換是不變的,例如對于諸如視點、遮擋、運動模糊、照明、背景或對象實例的變換是不變的,以有效地優化策略控制器,以選擇要由機器人代理執行的操作。因此,系統可以僅使用原始視頻演示進行監視來優化控制器,即無需任何明確的聯合級別對應關系或其他標記的數據。具體地,該系統既可以訓練生成嵌入的時間對比神經網絡,又可以僅使用原始視頻數據來優化策略控制器。例如,對諸如視圖變換的因素的學習的不變性可以改善其他代理在模仿運動時的性能。具體地,所描述的系統可以優化策略控制器,以便即使在機器人代理執行任務時僅僅由機器人代理拍攝的第一人圖像可用時,控制代理僅從執行該任務的另一代理的第三人圖像來執行任務。即,在代理執行任務時,即使當演示圖像的視點與由機器人代理捕獲的圖像的視點不同時,系統也可以有效地優化策略控制器。
本說明書的主題的一個或多個實施例的細節在附圖和以下描述中闡述。根據說明書、附圖和權利要求書,本主題的其他特征、方面和優點將變得顯而易見。
附圖說明
圖1示出了示例強化學習系統。
圖2示出了被配置為訓練時間對比神經網絡的示例訓練系統。
圖3示出了由兩個不同模態捕獲的觀察的示例三元組。
圖4示出了觀察的另一示例三元組,包括由單個模態捕獲的錨(anchor)觀察、肯定觀察和否定觀察。
圖5是用于訓練時間對比神經網絡的示例處理的流程圖。
圖6是用于優化策略控制器的示例處理的流程圖。
在各個附圖中,相同的附圖標記和標號表示相同的元件。
具體實施方式
圖1示出了示例強化學習系統100,其優化用于控制機器人代理112的策略控制器110。強化學習系統100是被實現為實現在下面描述的系統、組件和技術的一個或多個位置中的一個或多個計算機上的計算機程序的系統的示例。機器人代理112可以是例如機器人臂或更復雜的機器人。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880038469.0/2.html,轉載請聲明來源鉆瓜專利網。





