[發明專利]利用學徒來訓練動作選擇神經網絡在審
| 申請號: | 201880028844.3 | 申請日: | 2018-06-28 |
| 公開(公告)號: | CN110651279A | 公開(公告)日: | 2020-01-03 |
| 發明(設計)人: | O.皮埃特奎恩;M.里德米勒;王富民;B.皮奧特;M.維塞里克;T.A.海斯特;T.羅瑟爾;T.蘭普;N.M.O.希斯;J.K.肖爾茨 | 申請(專利權)人: | 淵慧科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N3/00 |
| 代理公司: | 11105 北京市柳沈律師事務所 | 代理人: | 金玉潔 |
| 地址: | 英國*** | 國省代碼: | 英國;GB |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 重放緩沖器 神經網絡 元組 神經網絡系統 動作數據 獎勵數據 演示 評論 緩沖器 存儲狀態數據 環境狀態數據 神經網絡學習 策略函數 存儲元組 環境交互 連續動作 強化學習 狀態數據 新狀態 映射 配置 集合 代理 觀察 學習 | ||
一種離策略強化學習參與者?評論者(actor?critic)神經網絡系統,被配置為從連續動作空間中選擇與環境交互的代理將執行的動作以執行任務。觀察定義了環境狀態數據和獎勵數據。系統具有參與者神經網絡,學習將狀態數據映射到動作數據的策略函數。評論者神經網絡學習動作值(Q)函數。重放緩沖器存儲狀態數據,動作數據,獎勵數據和新狀態數據的元組。重放緩沖器還包括演示轉變數據,包括來自環境中的任務的演示的元組的集合。神經網絡系統被配置為使用來自重放緩沖器的存儲元組來訓練參與者神經網絡和評論者神經網絡離策略,所述重放緩沖器包括來自系統的操作和來自演示轉變數據的元組。
相關申請的交叉引用
本申請是非臨時申請,并且要求2017年6月28日提交的美國臨時專利申請第62/526,290號的優先權,其全部內容通過引用合并于此。
背景技術
本說明書涉及強化學習。
在強化學習系統中,代理通過執行由強化學習系統響應于接收到表征環境當前狀態的觀察而選擇的動作來與環境交互。
一些強化學習系統根據神經網絡的輸出來選擇將由代理響應于接收到給定觀察而執行的動作。
神經網絡是機器學習模型,其使用一層或多層非線性單元來預測對于接收的輸入的輸出。一些神經網絡是深度神經網絡,其除了輸出層外還包括一個或多個隱藏層。每個隱藏層的輸出用作網絡中下一層(即下一隱藏層或輸出層)的輸入。網絡的每一層根據相應的參數集合的當前值從接收的輸入生成輸出。
發明內容
本說明書通常描述一種強化學習(RL)系統,其選擇與環境交互的強化學習代理將執行的動作。為了使代理與環境交互,系統接收表征環境當前狀態的數據,并響應于接收的數據選擇將由代理將執行的動作。在本說明書中,將表征環境狀態的數據稱為觀察。
在一些實現方式中,環境是模擬環境,代理被實現為與模擬環境交互的一個或多個計算機程序。例如,模擬環境可以是視頻游戲,并且代理可以是玩視頻游戲的模擬用戶。作為另一示例,模擬環境可以是運動模擬環境,例如,駕駛模擬或飛行模擬,并且代理是在運動模擬中導航的模擬車輛。在這些實現方式中,動作可以是控制輸入以控制模擬用戶或模擬車輛。
在其他一些實現方式中,環境是真實環境,并且代理是與真實環境交互的機械代理。例如,代理可以是與環境交互以完成特定任務的機器人。作為另一示例,代理可以是在環境中導航的自主或半自主車輛。在這些實現方式中,動作可以是控制輸入以控制機器人或自主車輛。
在一個方面,訓練強化學習系統以選擇將由與環境交互的代理執行的動作以實現任務的方法包括從環境中的任務的演示來捕獲訓練數據。還提供了相應的系統。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淵慧科技有限公司,未經淵慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880028844.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:射頻通信設備及其使用方法
- 下一篇:投影神經網絡





