[發(fā)明專利]噪聲神經(jīng)網(wǎng)絡(luò)層有效
| 申請(qǐng)?zhí)枺?/td> | 201880018376.1 | 申請(qǐng)日: | 2018-05-18 |
| 公開(kāi)(公告)號(hào): | CN110447041B | 公開(kāi)(公告)日: | 2023-05-30 |
| 發(fā)明(設(shè)計(jì))人: | O.皮特奎因;J.L.梅尼克;M.G.阿扎;B.皮奧特;V.米;C.布倫德?tīng)?/a>;M.福圖納托;R.穆諾斯 | 申請(qǐng)(專利權(quán))人: | 淵慧科技有限公司 |
| 主分類號(hào): | G06N3/0464 | 分類號(hào): | G06N3/0464;G06N3/08 |
| 代理公司: | 北京市柳沈律師事務(wù)所 11105 | 代理人: | 金玉潔 |
| 地址: | 英國(guó)*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 噪聲 神經(jīng)網(wǎng)絡(luò) | ||
1.一種訓(xùn)練強(qiáng)化學(xué)習(xí)系統(tǒng)的神經(jīng)網(wǎng)絡(luò)的方法,
其中,所述強(qiáng)化學(xué)習(xí)系統(tǒng)被配置為在多個(gè)時(shí)間步驟中的每一個(gè)處選擇要由與環(huán)境交互的代理執(zhí)行的動(dòng)作,其中在每個(gè)時(shí)間步驟,強(qiáng)化學(xué)習(xí)系統(tǒng)接收包括表征環(huán)境的當(dāng)前狀態(tài)的數(shù)據(jù)的觀察并響應(yīng)于所接收的數(shù)據(jù)選擇要由代理執(zhí)行的動(dòng)作,其中,環(huán)境是真實(shí)世界環(huán)境且代理是與真實(shí)世界環(huán)境交互的機(jī)械代理,或者其中環(huán)境是工業(yè)設(shè)施且代理是用于工業(yè)設(shè)施的控制系統(tǒng),或者其中環(huán)境是運(yùn)動(dòng)模擬環(huán)境并且代理是在運(yùn)動(dòng)模擬環(huán)境中導(dǎo)航的模擬車輛,
其中,所述神經(jīng)網(wǎng)絡(luò)被配置為接收包括觀察的網(wǎng)絡(luò)輸入并處理所述網(wǎng)絡(luò)輸入以生成網(wǎng)絡(luò)輸出用于選擇動(dòng)作,
其中,所述神經(jīng)網(wǎng)絡(luò)包括多個(gè)層,每個(gè)層具有各自的層參數(shù),其中,層參數(shù)定義權(quán)重,
其中,一個(gè)或多個(gè)所述層是噪聲層,并且
其中,所述方法包括:
維持指定所述多個(gè)層中的每個(gè)層的每個(gè)層參數(shù)的當(dāng)前值的數(shù)據(jù),并且對(duì)于每個(gè)噪聲層的每個(gè)層參數(shù),維持所述層參數(shù)的相應(yīng)的噪聲參數(shù)的當(dāng)前值;
獲得訓(xùn)練網(wǎng)絡(luò)輸入;
為每個(gè)噪聲層的每個(gè)層參數(shù)確定相應(yīng)的噪聲值;
從所述層參數(shù)的當(dāng)前值、所述相應(yīng)的噪聲參數(shù)的當(dāng)前值、和所述噪聲值,為每個(gè)噪聲層的每個(gè)層參數(shù)確定所述層參數(shù)的噪聲當(dāng)前值;
根據(jù)所述噪聲當(dāng)前值使用神經(jīng)網(wǎng)絡(luò)處理訓(xùn)練網(wǎng)絡(luò)輸入,以生成所述訓(xùn)練網(wǎng)絡(luò)輸入的網(wǎng)絡(luò)輸出;
確定目標(biāo)函數(shù)的梯度,所述梯度取決于關(guān)于所述層參數(shù)的當(dāng)前值和所述噪聲參數(shù)的當(dāng)前值的所述網(wǎng)絡(luò)輸出;以及
從所述梯度確定對(duì)所述層參數(shù)的當(dāng)前值和所述噪聲參數(shù)的當(dāng)前值的更新,
其中,為每個(gè)噪聲層的每個(gè)層參數(shù)確定相應(yīng)的噪聲值包括:
為每個(gè)噪聲層,從一個(gè)或多個(gè)預(yù)定分布采樣預(yù)定數(shù)量的噪聲值;以及
為每個(gè)噪聲層的每個(gè)權(quán)重,通過(guò)合并關(guān)于該噪聲層的兩個(gè)或多個(gè)采樣的噪聲值來(lái)生成該權(quán)重的噪聲值。
2.根據(jù)權(quán)利要求1所述的方法,其中,從所述層參數(shù)的當(dāng)前值、所述相應(yīng)的噪聲參數(shù)的當(dāng)前值、和所述噪聲值,為每個(gè)噪聲層的每個(gè)層參數(shù)確定所述層參數(shù)的噪聲當(dāng)前值,包括:
將所述相應(yīng)的噪聲參數(shù)的當(dāng)前值應(yīng)用于所述噪聲值,以生成噪聲修改器;以及
將所述噪聲修改器和所述層參數(shù)的當(dāng)前值相加,以生成所述層參數(shù)的噪聲的當(dāng)前值。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述網(wǎng)絡(luò)輸入包括表征所述環(huán)境的狀態(tài)和來(lái)自動(dòng)作集合的動(dòng)作的觀察,并且其中,所述網(wǎng)絡(luò)輸出是在所述強(qiáng)化學(xué)習(xí)代理響應(yīng)于所述觀察執(zhí)行所述動(dòng)作的情況下接收的返回的估計(jì)。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述網(wǎng)絡(luò)輸入包括表征所述環(huán)境狀態(tài)的觀察,并且所述網(wǎng)絡(luò)輸出定義了所述代理響應(yīng)于所述觀察要執(zhí)行的可能動(dòng)作集合中的動(dòng)作的似然分布。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述多個(gè)層還包括不是噪聲層的一個(gè)或多個(gè)層,并且其中,使用所述神經(jīng)網(wǎng)絡(luò)處理所述訓(xùn)練網(wǎng)絡(luò)輸入包括根據(jù)所述噪聲當(dāng)前值和作為非噪聲層的層的層參數(shù)的當(dāng)前值來(lái)處理所述訓(xùn)練網(wǎng)絡(luò)輸入,以生成所述訓(xùn)練網(wǎng)絡(luò)輸入的網(wǎng)絡(luò)輸出。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述一個(gè)或多個(gè)噪聲層包括一個(gè)或多個(gè)全連接層。
7.根據(jù)權(quán)利要求1所述的方法,其中,所述一個(gè)或多個(gè)噪聲層包括一個(gè)或多個(gè)卷積層。
8.根據(jù)權(quán)利要求1所述的方法,其中,所述一個(gè)或多個(gè)噪聲層包括一個(gè)或多個(gè)遞歸神經(jīng)網(wǎng)絡(luò)層。
9.根據(jù)權(quán)利要求1所述的方法,其中,所述目標(biāo)函數(shù)還取決于所述訓(xùn)練網(wǎng)絡(luò)輸入的目標(biāo)輸出。
10.一種訓(xùn)練強(qiáng)化學(xué)習(xí)系統(tǒng)的神經(jīng)網(wǎng)絡(luò)的系統(tǒng),包括一個(gè)或多個(gè)計(jì)算機(jī)和存儲(chǔ)指令的一個(gè)或多個(gè)存儲(chǔ)設(shè)備,所述指令在由所述一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行時(shí)使所述一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-9中任一項(xiàng)所述的相應(yīng)方法的操作。
11.一種或多種計(jì)算機(jī)存儲(chǔ)介質(zhì),存儲(chǔ)指令,所述指令在由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行時(shí)使所述一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-9中任一項(xiàng)所述的相應(yīng)方法的操作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于淵慧科技有限公司,未經(jīng)淵慧科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880018376.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲(chǔ)介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





