[發(fā)明專利]從動作集中選擇代理執(zhí)行的動作的方法、系統(tǒng)和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201680066409.0 | 申請日: | 2016-11-11 |
| 公開(公告)號: | CN108604309B | 公開(公告)日: | 2022-06-07 |
| 發(fā)明(設(shè)計)人: | 王梓聿;若昂·費迪南多·戈梅斯德弗雷塔斯;馬克·蘭奇托特 | 申請(專利權(quán))人: | 淵慧科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 中原信達知識產(chǎn)權(quán)代理有限責任公司 11219 | 代理人: | 李寶泉;周亞榮 |
| 地址: | 英國*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 動作 集中 選擇 代理 執(zhí)行 方法 系統(tǒng) 存儲 介質(zhì) | ||
系統(tǒng)、方法和裝置,包括編碼在計算機存儲介質(zhì)上的計算機程序,用于從動作集中選擇待由與環(huán)境交互的代理執(zhí)行的動作。在一個方面中,該系統(tǒng)包括對抗性深度神經(jīng)網(wǎng)絡(luò)。對抗性深度神經(jīng)網(wǎng)絡(luò)包括價值子網(wǎng)、優(yōu)勢子網(wǎng)和組合層。價值子網(wǎng)處理觀察的表示以生成價值估計。優(yōu)勢子網(wǎng)處理觀察的表示以對該動作集中的每個動作生成優(yōu)勢估計。組合層將價值估計與用于每個動作的相應(yīng)的優(yōu)勢估計組合以生成用于該動作的相應(yīng)的Q值。該系統(tǒng)使用用于該動作集中的動作的相應(yīng)的Q值,選擇響應(yīng)于該觀察,將由該代理執(zhí)行的動作。
技術(shù)領(lǐng)域
本說明書涉及強化學(xué)習(xí)。
背景技術(shù)
在強化學(xué)習(xí)系統(tǒng)中,代理通過響應(yīng)于接收表征環(huán)境的當前狀態(tài)的觀察,執(zhí)行由強化學(xué)習(xí)系統(tǒng)選擇的動作來與環(huán)境交互。
一些強化學(xué)習(xí)系統(tǒng)根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出,響應(yīng)于接收給定觀察,選擇將由代理執(zhí)行的動作。
神經(jīng)網(wǎng)絡(luò)是采用一個或多個非線性單元層來預(yù)測所接收輸入的輸出的機器學(xué)習(xí)模型。一些神經(jīng)網(wǎng)絡(luò)是除了輸出層外,還包括一個或多個隱藏層的深度神經(jīng)網(wǎng)絡(luò)。每個隱藏層的輸出被用作網(wǎng)絡(luò)中的下一層(即下一隱藏層或輸出層)的輸入。網(wǎng)絡(luò)的每一層根據(jù)相應(yīng)的參數(shù)集的當前值,由所接收的輸入產(chǎn)生輸出。
發(fā)明內(nèi)容
通常,本說明書中所述的主題的一個創(chuàng)新方面可以體現(xiàn)在用于從動作集中選擇將由與環(huán)境交互的代理執(zhí)行的動作的系統(tǒng)中,其中,該系統(tǒng)包括由一個或多個計算機實現(xiàn)的對抗性深度神經(jīng)網(wǎng)絡(luò)。
該對抗性深度神經(jīng)網(wǎng)絡(luò)包括:(i)價值子網(wǎng),所述價值子網(wǎng)被配置為:接收表征所述環(huán)境的當前狀態(tài)的觀察的表示;以及處理所述觀察的表示以生成價值估計,所述價值估計是由所述環(huán)境處于所述當前狀態(tài)而產(chǎn)生的預(yù)期返回的估計;(ii)優(yōu)勢子網(wǎng),所述優(yōu)勢子網(wǎng)被配置為:接收所述觀察的表示;以及處理所述觀察的表示以對所述動作集中的每個動作生成相應(yīng)的優(yōu)勢估計,所述優(yōu)勢估計是當所述環(huán)境處于當前狀態(tài)時由所述代理執(zhí)行所述動作而產(chǎn)生的返回相對于當所述環(huán)境處于當前狀態(tài)時由所述代理執(zhí)行其他動作而產(chǎn)生的返回的相對度量的估計;以及(iii)組合層,所述組合層被配置為對每個動作,組合所述價值估計和所述動作的相應(yīng)的優(yōu)勢估計以生成用于所述動作的相應(yīng)的Q值,其中,所述所述相應(yīng)的Q值是當所述環(huán)境處于當前狀態(tài)時由所述代理執(zhí)行所述動作而產(chǎn)生的預(yù)期返回的估計。
該方面的其他實施例包括使用該系統(tǒng)來選擇將由與環(huán)境交互的代理執(zhí)行的動作的方法。該方面的其他實施例包括相應(yīng)的計算機系統(tǒng)、裝置和記錄在一個或多個計算機存儲設(shè)備上的計算機程序,分別被配置為執(zhí)行所述方法的動作。一個或多個計算機的系統(tǒng)可以被配置為借助于安裝在系統(tǒng)上、運行時,使系統(tǒng)執(zhí)行動作的軟件、固件、硬件或其任意組合來執(zhí)行特定的操作或動作。一個或多個計算機程序可以被配置為借助于包括當由數(shù)據(jù)處理裝置執(zhí)行時,使該裝置執(zhí)行動作的指令來執(zhí)行特定的操作或動作。
在一些實施方式中,所述系統(tǒng)包括一個或多個第二計算機以及一個或多個存儲設(shè)備,所述一個或多個存儲設(shè)備存儲指令,所述指令當由所述一個或多個第二計算機執(zhí)行時,使所述一個或多個第二計算機執(zhí)行包括使用用于所述動作集中的所述動作的相應(yīng)的Q值,響應(yīng)于所述觀察,選擇將由所述代理執(zhí)行的動作。
在一些實施方式中,所述對抗性深度神經(jīng)網(wǎng)絡(luò)進一步包括一個或多個初始神經(jīng)網(wǎng)絡(luò)層,所述一個或多個初始神經(jīng)網(wǎng)絡(luò)層被配置為接收所述觀察;以及處理所述觀察以生成所述觀察的所述表示。
在一些實施方式中,所述觀察是圖像,以及所述一個或多個初始神經(jīng)網(wǎng)絡(luò)層是卷積神經(jīng)網(wǎng)絡(luò)層。在一些實施方式中,所述觀察的表示是所述觀察。
在一些實施方式中,組合所述價值估計和所述相應(yīng)的優(yōu)勢估計包括對所述動作集中的所述動作,確定所述相應(yīng)的優(yōu)勢估計的集中趨勢的度量;通過使用所述集中趨勢的度量調(diào)整用于所述動作的所述相應(yīng)的優(yōu)勢估計,確定用于所述動作的相應(yīng)的調(diào)整優(yōu)勢估計;以及組合用于所述動作的相應(yīng)的優(yōu)勢估計和所述價值估計以確定用于所述動作的相應(yīng)的Q值。
在一些實施方式中,所述價值子網(wǎng)具有第一參數(shù)集,以及所述優(yōu)勢子網(wǎng)具有不同的第二參數(shù)集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于淵慧科技有限公司,未經(jīng)淵慧科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201680066409.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





