[發(fā)明專利]基于想象力的代理神經(jīng)網(wǎng)絡(luò)在審
| 申請?zhí)枺?/td> | 201880028596.2 | 申請日: | 2018-05-22 |
| 公開(公告)號: | CN110892420A | 公開(公告)日: | 2020-03-17 |
| 發(fā)明(設(shè)計)人: | 丹尼爾·彼得·維爾斯特拉;李宇佳;拉茲萬·帕什卡努;彼得·威廉·巴塔利亞;塞奧法尼·紀(jì)堯姆·韋伯;拉爾斯·比辛;戴維·保羅·賴克特;亞瑟·克萊蒙特·格斯;丹尼洛·吉米內(nèi)斯·雷森德;阿德里亞·普伊赫多梅內(nèi)奇·巴迪亞;奧里奧爾·溫亞爾斯;尼古拉斯·曼弗雷德·奧托·黑斯;塞巴斯蒂安·亨利·拉卡涅雷 | 申請(專利權(quán))人: | 淵慧科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N3/00 |
| 代理公司: | 中原信達(dá)知識產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 李寶泉;任慶威 |
| 地址: | 英國*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 想象力 代理 神經(jīng)網(wǎng)絡(luò) | ||
1.一種用于基于模型的強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)系統(tǒng),其中所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)用于選擇要由與環(huán)境交互的代理執(zhí)行的動作,以執(zhí)行任務(wù)從而試圖實現(xiàn)指定的結(jié)果,所述系統(tǒng)包括:
至少一個想象力核心,所述至少一個想象力核心包括所述環(huán)境的模型并具有輸入以至少接收表征所述環(huán)境的當(dāng)前狀態(tài)的當(dāng)前觀察,其中所述想象力核心被配置成響應(yīng)于所述當(dāng)前觀察而輸出軌跡數(shù)據(jù),所述軌跡數(shù)據(jù)定義了包括所述想象力核心想象的所述環(huán)境的未來特征的序列的軌跡;
至少一個卷展編碼器,用于對來自所述想象力核心的特征的序列進(jìn)行編碼,以提供針對所述軌跡的卷展嵌入;以及
強(qiáng)化學(xué)習(xí)輸出級,用于接收從所述卷展嵌入中導(dǎo)出的數(shù)據(jù),并輸出動作策略數(shù)據(jù),所述動作策略數(shù)據(jù)用于定義基于所述當(dāng)前觀察來識別動作的動作策略。
2.根據(jù)權(quán)利要求1所述的神經(jīng)網(wǎng)絡(luò)系統(tǒng),其中,所述神經(jīng)網(wǎng)絡(luò)被配置成:除首次使用所述想象力核心在先前時間期間生成的觀察之外,在每種情況下都操作所述想象力核心多次,以生成所述軌跡作為特征的序列;并且所述至少一個卷展編碼器被配置成對來自所述想象力核心的所述特征的序列進(jìn)行編碼,以生成所述軌跡的卷展編碼。
3.根據(jù)權(quán)利要求2所述的神經(jīng)網(wǎng)絡(luò)系統(tǒng),所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)被配置成生成對基于相同的觀察數(shù)據(jù)開始的多個軌跡中的每個軌跡的卷展編碼;所述系統(tǒng)還包括聚集器,用于將所述卷展編碼聚集成針對所述強(qiáng)化學(xué)習(xí)輸出級的想象力代碼,;并且其中,所述動作策略數(shù)據(jù)取決于所述想象力代碼。
4.根據(jù)權(quán)利要求1、2或3所述的神經(jīng)網(wǎng)絡(luò)系統(tǒng),還包括耦合在所述輸入和所述強(qiáng)化學(xué)習(xí)輸出級之間的無模型強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模塊。
5.根據(jù)權(quán)利要求1至4中的任一項所述的神經(jīng)網(wǎng)絡(luò)系統(tǒng),其中所述想象力核心包括耦合至策略模塊的神經(jīng)環(huán)境模型,其中所述神經(jīng)環(huán)境模型耦合至所述輸入以接收所述當(dāng)前觀察或觀察歷史,并且還被配置成接收當(dāng)前動作并作為響應(yīng)而預(yù)測至少后續(xù)觀察;并且其中所述想象力核心被配置成使用所述策略模塊以生成動作序列,并且所述環(huán)境模型被配置成生成狀態(tài)序列,其中所述軌跡數(shù)據(jù)包括所述動作序列和/或所述狀態(tài)序列。
6.根據(jù)權(quán)利要求5所述的神經(jīng)網(wǎng)絡(luò)系統(tǒng),其中,所述軌跡數(shù)據(jù)包括預(yù)測觀察、預(yù)測動作、預(yù)測回報以及預(yù)測序列終止信號中的一個或多個。
7.根據(jù)權(quán)利要求5或6所述的神經(jīng)網(wǎng)絡(luò)系統(tǒng),其中所述輸入用于接收所述當(dāng)前觀察和觀察歷史,并且其中所述神經(jīng)環(huán)境模型被配置成響應(yīng)于所述當(dāng)前觀察和所述觀察歷史而預(yù)測所述后續(xù)觀察,其條件是來自所述策略模塊的動作數(shù)據(jù)。
8.根據(jù)權(quán)利要求1至7中的任一項所述的神經(jīng)網(wǎng)絡(luò)系統(tǒng),其中,所述強(qiáng)化學(xué)習(xí)輸出級被配置成輸出限定策略向量的策略數(shù)據(jù)以及用于所述當(dāng)前觀察的值基線數(shù)據(jù),以確定由所述動作策略限定的動作的優(yōu)勢,所述策略向量限定所述動作策略。
9.根據(jù)權(quán)利要求1至8中的任一項所述的神經(jīng)網(wǎng)絡(luò)系統(tǒng),其中,所述至少一個卷展編碼器包括一組連續(xù)狀態(tài)生成神經(jīng)網(wǎng)絡(luò)。
10.根據(jù)權(quán)利要求1至9中的任一項所述的神經(jīng)網(wǎng)絡(luò)系統(tǒng),其中,一個或多個所述想象力核心包括所述環(huán)境的已學(xué)習(xí)模型。
11.一種訓(xùn)練根據(jù)權(quán)利要求1至9中的任一項所述的神經(jīng)網(wǎng)絡(luò)系統(tǒng)的方法,所述方法包括預(yù)先訓(xùn)練所述想象力核心的所述環(huán)境的一個或多個模型,然后使用強(qiáng)化學(xué)習(xí)訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)的另一部分。
12.根據(jù)權(quán)利要求11所述的方法,當(dāng)從屬于權(quán)利要求5時,其中所述神經(jīng)網(wǎng)絡(luò)的訓(xùn)練包括基于所述策略模塊的相應(yīng)輸出與給定觀察的所述強(qiáng)化學(xué)習(xí)輸出級的不匹配來訓(xùn)練所述策略模塊。
13.一種存儲指令的一個或多個計算機(jī)存儲介質(zhì),所述指令在由一個或多個計算機(jī)執(zhí)行時引起所述一個或多個計算機(jī)實現(xiàn)根據(jù)權(quán)利要求1至10中的任一項所述的系統(tǒng)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于淵慧科技有限公司,未經(jīng)淵慧科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880028596.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





