[發明專利]任務的強化和模仿學習在審
| 申請號: | 201811269614.4 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN109726813A | 公開(公告)日: | 2019-05-07 |
| 發明(設計)人: | 薩蘭·圖恩雅蘇弗納庫爾;朱玉可;喬舒亞·梅蕾爾;雅諾什·克拉馬爾;王梓聿;尼古拉斯·曼弗雷德·奧托·黑斯 | 申請(專利權)人: | 淵慧科技有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 李寶泉;周亞榮 |
| 地址: | 英國*** | 國省代碼: | 英國;GB |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模仿 控制系統 神經網絡控制系統 真實世界環境 控制代理 控制數據 強化學習 圖像數據 學習提供 配置的 數據集 輸出 學習 代理 獎勵 | ||
1.一種訓練神經網絡以生成用于控制代理在環境中執行任務的命令的計算機實現的方法,所述方法包括:
對于所述任務的多個執行中的每一個,獲得表征所述任務的對應執行的相應的數據集;以及
使用所述數據集來訓練神經網絡以基于對所述環境的捕獲圖像進行編碼的圖像數據和包括描述所述代理的配置的一個或多個變量的本體感受數據來生成用于控制所述代理的命令;
其中,訓練所述神經網絡包括:
使用所述神經網絡來生成多組一個或多個命令,
對于每個命令組生成指示所述任務在由所述代理實現該命令組時被多么成功地執行的至少一個對應的獎勵值,以及
基于所述數據集、所述命令組和所述對應的獎勵值來調整所述神經網絡的一個或多個參數。
2.根據權利要求1所述的方法,其中,調整所述神經網絡的所述一個或多個參數包括基于混合能量函數來調整所述神經網絡,所述混合能量函數包括使用所述數據集和所生成的命令組取得的模仿獎勵值以及使用所生成的獎勵值計算出的任務獎勵項兩者。
3.根據權利要求2所述的方法,包括使用所述數據集來生成鑒別器網絡,并且使用所述鑒別器網絡和所述多組一個或多個命令來取得所述模仿獎勵值。
4.根據權利要求3所述的方法,其中,所述鑒別器網絡接收表征所述環境中的對象的位置的數據。
5.根據任一前述權利要求所述的方法,其中,所述獎勵值是通過基于對應的命令組在計算上模擬由所述代理在所述環境中執行的過程以生成所述環境的最終狀態并且至少基于所述環境的最終狀態計算初始獎勵值來生成的。
6.根據權利要求5所述的方法,其中,對所述神經網絡的更新是使用通過將所述初始獎勵值減去值函數而獲得的激活函數估計器來計算的,并且所述初始獎勵值是基于所述環境的最終狀態根據任務獎勵函數來計算的。
7.根據權利要求6所述的方法,其中,所述值函數是使用表征所述環境中的對象的位置的數據來計算的。
8.根據權利要求6或7所述的方法,其中,所述值函數是通過自適應模型來計算的。
9.根據任一前述權利要求所述的方法,其中,所述神經網絡包括接收所述圖像數據并且從所述圖像數據生成卷積數據的卷積神經網絡,所述神經網絡還包括接收所述卷積神經網絡的輸出和所述本體感受數據的至少一個自適應組件。
10.根據權利要求9所述的方法,其中,所述自適應組件是感知器。
11.根據權利要求9或權利要求10所述的方法,其中,所述神經網絡還包括遞歸神經網絡,所述遞歸神經網絡接收從所述圖像數據和所述本體感受數據兩者生成的輸入數據。
12.根據權利要求9至11中的任一項所述的方法,還包括定義至少一個輔助任務,并且訓練所述卷積網絡作為被訓練來基于圖像數據執行所述輔助任務的自適應系統的一部分。
13.根據任一前述權利要求所述的方法,其中,所述神經網絡的訓練與由相應的工作者對所述神經網絡的多個附加實例的訓練并行執行,對所述神經網絡的參數的調整附加地基于指示所述任務由模擬代理基于由所述附加神經網絡生成的命令組被多么成功地執行的獎勵值。
14.根據任一前述權利要求所述的方法,其中,使用所述神經網絡來生成多組命令的步驟通過向所述神經網絡供應圖像數據以及表征與所述任務的執行中的一個執行相關聯的狀態的本體感受數據被執行至少一次。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淵慧科技有限公司,未經淵慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811269614.4/1.html,轉載請聲明來源鉆瓜專利網。





