[發明專利]使用圖像嵌入優化機器人代理的策略控制器在審
| 申請號: | 201880038469.0 | 申請日: | 2018-09-20 |
| 公開(公告)號: | CN110730970A | 公開(公告)日: | 2020-01-24 |
| 發明(設計)人: | Y.切博塔;P.塞爾馬尼特;H.林奇 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06N3/00 | 分類號: | G06N3/00;G06N3/04;G06N3/08 |
| 代理公司: | 11105 北京市柳沈律師事務所 | 代理人: | 金玉潔 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 執行機器人 演示 神經網絡優化 策略控制器 方法和裝置 機器人代理 環境交互 環境圖像 神經網絡 優化策略 控制器 變體 嵌入 圖像 代理 | ||
1.一種優化策略控制器的方法,該策略控制器用于選擇要由與環境交互的機器人代理執行以執行指定任務的動作,該方法包括:
獲得執行指定任務的變體的另一代理的演示圖像的演示序列;
使用時間對比神經網絡處理演示序列中的每個演示圖像,以生成每個演示圖像的相應演示嵌入,其中時間對比神經網絡已被訓練為接收環境的輸入圖像并處理輸入圖像以生成輸入圖像的數字嵌入,其表征在輸入圖像中所描繪的環境的狀態;
通過執行使用當前策略控制器選擇的動作,獲得執行指定任務的機器人代理的機器人圖像的機器人序列,其中,機器人序列中的每個機器人圖像對應于演示序列中的相應演示圖像;
使用時間對比神經網絡處理機器人序列中的每個機器人圖像,以為每個機器人圖像生成相應機器人嵌入;以及
通過執行強化學習技術的迭代來更新當前策略控制器,以優化獎勵函數,對于每個演示圖像,獎勵函數取決于演示圖像的演示嵌入與對應機器人圖像的機器人嵌入之間的距離。
2.根據權利要求1所述的方法,其中,另一代理是人類演示者。
3.根據權利要求1所述的方法,其中,另一代理是不同的機器人代理。
4.根據權利要求1至3中的任一項所述的方法,其中,策略控制器是以軌跡為中心的控制器。
5.根據權利要求4所述的方法,其中,策略控制器是時變高斯控制器。
6.根據權利要求1至5中任一項所述的方法,其中,強化學習技術是PILQR技術。
7.根據權利要求1至6中任一項所述的方法,其中,獎勵函數包括歐幾里得距離項,該歐幾里得距離項是演示圖像的演示嵌入與對應機器人圖像的機器人嵌入之間的歐幾里得距離的平方。
8.根據權利要求1至7中任一項所述的方法,其中,獎勵函數包括Huber型損失項,該Huber型損失項是常數值與歐幾里得距離的平方之間的和的平方根,該歐幾里得距離是演示圖像的演示嵌入和對應機器人圖像的機器人嵌入之間的歐幾里得距離。
9.根據權利要求1至6中的任一項所述的方法,其中,獎勵函數滿足:
其中vt是演示序列中第t位置的演示圖像的演示嵌入,wt是機器人序列中第t位置的機器人圖像的機器人嵌入,α和β是固定權重參數,并且γ是小的正常數值。
10.根據權利要求1至9中任一項所述的方法,其中,從與機器人序列中的圖像不同的視點捕獲演示序列中的圖像。
11.根據權利要求10所述的方法,其中,從相對于另一代理的第三方視角捕獲演示序列中的圖像,并且從相對于機器人代理的第一方視角捕獲機器人序列中的圖像。
12.根據權利要求1至11中任一項所述的方法,其中,對應機器人圖像是在機器人序列中與演示圖像在演示序列中的位置處于相同位置的機器人圖像。
13.根據權利要求1至12中任一項所述的方法,其中,時間對比神經網絡具有多個網絡參數,并且其中,所述方法還包括:
訓練時間對比神經網絡以生成數字嵌入,包括:
獲得由第一模態捕獲的環境的第一圖像;
獲得與第一圖像同時出現并由第二不同模態捕獲的第二圖像;
獲得由第一模態捕獲的與第一圖像不同時出現的第三圖像;
確定使用第一圖像作為錨示例、第二圖像作為肯定示例且第三圖像作為否定示例的三元組損失的梯度;以及
使用三元組損失的梯度來更新網絡參數的當前值。
14.根據權利要求13所述的方法,其中,第一模態是在第一視點處的相機,并且其中,第二模態是在第二不同視點處的相機。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880038469.0/1.html,轉載請聲明來源鉆瓜專利網。





