[發明專利]任務的強化和模仿學習在審
| 申請號: | 201811269614.4 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN109726813A | 公開(公告)日: | 2019-05-07 |
| 發明(設計)人: | 薩蘭·圖恩雅蘇弗納庫爾;朱玉可;喬舒亞·梅蕾爾;雅諾什·克拉馬爾;王梓聿;尼古拉斯·曼弗雷德·奧托·黑斯 | 申請(專利權)人: | 淵慧科技有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 李寶泉;周亞榮 |
| 地址: | 英國*** | 國省代碼: | 英國;GB |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模仿 控制系統 神經網絡控制系統 真實世界環境 控制代理 控制數據 強化學習 圖像數據 學習提供 配置的 數據集 輸出 學習 代理 獎勵 | ||
提供了任務的強化和模仿學習。一種用于控制代理在真實世界環境中執行任務的神經網絡控制系統基于圖像數據和描述所述代理的配置的本體感受數據來操作。所述控制系統的訓練包括使用從所述任務的先前執行生成的數據集的模仿學習以及基于從由所述控制系統輸出的控制數據計算出的獎勵的強化學習兩者。
相關申請的交叉引用
本申請是于2017年10月27日提交的美國臨時專利申請No. 62/578,368的非臨時申請并要求其優先權,其全部內容特此通過引用并入。
技術領域
本說明書涉及用于訓練神經網絡以控制代理在環境中執行任務的方法和系統。
背景技術
在強化學習(RL)系統中,代理通過執行由強化學習系統響應于接收到表征環境的當前狀態的觀察結果而選擇的動作來與環境交互。
一些強化學習系統依照神經網絡的輸出來選擇要由代理響應于接收到給定觀察結果而執行的動作。
神經網絡是采用非線性單元的一個或多個層來針對接收到的輸入預測輸出的機器學習模型。一些神經網絡是除了包括輸出層之外還包括一個或多個隱藏層的深度神經網絡。每個隱藏層的輸出被用作網絡中的下一層即下一個隱藏層或輸出層的輸入。網絡的每個層依照相應的參數集的當前值從接收到的輸入生成輸出。
一些神經網絡是遞歸神經網絡。遞歸神經網絡是接收輸入序列并且從該輸入序列生成輸出序列的神經網絡。特別地,遞歸神經網絡可在在當前時間步計算輸出時使用來自前一個時間步的網絡的一些或全部內部狀態。遞歸神經網絡的示例是包括一個或多個長短期(LSTM) 記憶塊的LSTM神經網絡。每個LSTM記憶塊可包括一個或多個單元,所述單元各自包括輸入門、遺忘門和輸出門,所述輸出門允許單元為該單元存儲先前的狀態,例如,用于在生成當前激活時使用或者被提供給LSTM神經網絡的其它組件。
在模仿學習(IL)系統中,神經網絡被訓練以使用表征其中任務先前已由代理在專家諸如人類用戶的控制下執行的實例的數據來控制代理執行任務。
發明內容
本說明書一般地描述作為計算機程序實現在一個或多個位置中的一個或多個計算機中的系統如何可執行用以訓練用于選擇要由與環境交互的代理執行的動作的自適應系統(“神經網絡”)(即,調整其參數) 的方法。
代理是機械系統(例如“機器人”,但是它可替選地可以是交通工具,諸如用于運送乘客的交通工具),所述機械系統包括連接在一起的一個或多個構件(例如使用允許構件的相對運動的接合部)以及控制構件的相對位置的一個或多個驅動機構。例如,神經網絡可以以命令的形式向代理發送命令(指令),所述命令指示“接合部速度”,即驅動機構應該相對于其它構件移動這些構件中的一個或多個的角速率。代理位于真實世界(“真實”)環境內。代理可以進一步包括用于在神經網絡的控制下使代理在環境中平移和/或旋轉的至少一個驅動機構。注意在一些實施方式中,代理可以包含兩個或更多個不相交的部分(彼此不連接的部分),并且這些部分基于它們從神經網絡接收的相應的命令獨立地行動。
如下所述,訓練方法可以利用模擬代理。模擬代理具有在模擬環境內模擬機器人在真實環境中的運動的模擬運動。因此術語“代理”用于描述真實代理(機器人)和模擬代理兩者。
代理(真實代理和模擬代理)由神經網絡控制來執行任務,其中代理操縱作為環境的一部分并且與代理分離(即,不是其一部分)的一個或多個對象。通常基于遵隨操縱的對象的一個或多個期望的最終位置定義任務。
在本文中所描述的實施方式中,神經網絡利用包括真實或模擬環境的圖像的數據(通常包括代理的至少一部分的圖像)以及描述表征 (真實或模擬)代理的配置的一個或多個本體感受特征的本體感受數據。例如,本體感受特征可以是代理的構件的位置和/或速度,例如接合部角度,和/或接合部角速度。附加地或可替選地它們可以包括接合部力和/或扭矩和/或加速度,例如重力補償的扭矩反饋,以及由代理保持的物品的全局或相對姿態。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淵慧科技有限公司,未經淵慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811269614.4/2.html,轉載請聲明來源鉆瓜專利網。





