[發明專利]基于想象力的代理神經網絡在審
| 申請號: | 201880028596.2 | 申請日: | 2018-05-22 |
| 公開(公告)號: | CN110892420A | 公開(公告)日: | 2020-03-17 |
| 發明(設計)人: | 丹尼爾·彼得·維爾斯特拉;李宇佳;拉茲萬·帕什卡努;彼得·威廉·巴塔利亞;塞奧法尼·紀堯姆·韋伯;拉爾斯·比辛;戴維·保羅·賴克特;亞瑟·克萊蒙特·格斯;丹尼洛·吉米內斯·雷森德;阿德里亞·普伊赫多梅內奇·巴迪亞;奧里奧爾·溫亞爾斯;尼古拉斯·曼弗雷德·奧托·黑斯;塞巴斯蒂安·亨利·拉卡涅雷 | 申請(專利權)人: | 淵慧科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N3/00 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 李寶泉;任慶威 |
| 地址: | 英國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 想象力 代理 神經網絡 | ||
提出了一種神經網絡系統。所述網絡能夠由基于模型的強化學習訓練,以選擇要由與環境交互的代理執行的動作,以執行任務從而試圖實現指定的結果。所述系統可包括:至少一個想象力核心,并且包括所述環境的模型,所述想象力核心具有輸入,以接收表征所述環境的當前狀態的當前觀察,并可選地接收歷史觀察。所述想象力核心可被配置成響應于所述當前觀察和/或歷史觀察而輸出軌跡數據。所述軌跡數據包括所述想象力核心想象的所述環境的未來特征的序列。所述系統還包括:至少一個卷展編碼器,以對所述特征的序列進行編碼;和強化學習輸出級,以接收從所述卷展嵌入中導出的數據,并輸出動作策略數據,從而定義基于所述當前觀察來識別動作的動作策略。
相關申請的交叉引用
本申請是2017年5月19日提交的美國臨時專利申請No.62/509,023的非臨時專利申請并要求其優先權,其公開內容在此通過引用以其整體并入本文。
技術領域
本說明書涉及強化學習。
背景技術
在強化學習系統中,代理通過執行由強化學習系統響應于接收到表征環境的當前狀態的觀察而選擇的動作來與環境交互。
一些強化學習系統響應于根據神經網絡的輸出接收到給定觀察而選擇將由代理執行的動作。
神經網絡是采用一層或多層非線性單元來預測接收到的輸入的輸出的機器學習模型。一些神經網絡是深度神經網絡,除了輸出層外還包括一個或多個隱藏層。每個隱藏層的輸出都用作網絡中的下一層,即下一隱藏層或輸出層的輸入。網絡的每一層都根據相應的一組參數的當前值從接收的輸入生成輸出。
發明內容
本說明書總體上描述了強化學習系統,其選擇待由與環境交互的強化學習代理執行的動作。為了使代理與環境交互,系統接收表征環境的當前狀態的數據,并響應于接收到的數據選擇代理要執行的動作。在本說明書中,表征環境狀態的數據將被稱為觀察。
在一些實施方式中,環境是模擬環境,并且代理被實現為與模擬環境交互的一個或多個計算機程序。例如,模擬環境可以是視頻游戲,并且代理可以是玩視頻游戲的模擬用戶。作為另一示例,模擬環境可以是運動模擬環境,例如駕駛模擬或飛行模擬,并且代理是在運動模擬中導航的模擬車輛。在這些實施方式中,動作可以是控制輸入以控制模擬用戶或模擬車輛。更一般地,環境可以是其中執行機器人控制任務的環境。
因而,在一些其它實施方式中,環境是真實環境,并且代理是與真實環境交互的機械代理。例如,代理可以是與環境交互以完成特定任務的機器人。作為另一示例,代理可以是在環境中導航的自主或半自主車輛。在這些實施方式中,動作可以是控制輸入以控制機器人或自動駕駛車輛。
在本公開的一方面,用于基于模型強化學習的神經網絡系統用于選擇要由與環境交互的代理執行的動作,以執行任務從而試圖實現指定的結果。該系統可包括至少一個想象力核心,該想象力核心具有輸入以接收表征環境的當前狀態的當前觀察并且可選地接收歷史觀察,并且包括環境的模型。想象力核心可被配置成響應于當前觀察和/或歷史觀察而輸出軌跡數據,軌跡數據定義了包括想象力核心想象的環境的未來特征的序列的軌跡(即,基于代理執行某些動作的假設預測的)。該系統還可包括至少一個卷展(rollout)編碼器,以對來自想象力核心的特征的序列進行編碼,從而提供針對該軌跡的卷展嵌入。該系統還可包括強化學習輸出級,以接收從卷展嵌入中導出的數據,并輸出動作策略數據,從而定義基于當前觀察來識別動作的動作策略。
強化學習(RL)輸出級可以是任何類型的RL輸出級。例如,它可以基于策略,例如直接搜索最佳策略并輸出策略數據,并且可選地輸出基線狀態值數據;或者它可以基于值,例如輸出Q值數據。在一些實施方式中,強化學習輸出級包括動作者評價RL(actor-criticRL)輸出級。策略數據可包括定義動作策略的策略向量和用于當前觀察的值基線數據,以確定由動作策略定義的動作的優勢。通常,動作策略數據可使用想象的軌跡作為背景。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淵慧科技有限公司,未經淵慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880028596.2/2.html,轉載請聲明來源鉆瓜專利網。





