[發明專利]噪聲神經網絡層有效
| 申請號: | 201880018376.1 | 申請日: | 2018-05-18 |
| 公開(公告)號: | CN110447041B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | O.皮特奎因;J.L.梅尼克;M.G.阿扎;B.皮奧特;V.米;C.布倫德爾;M.福圖納托;R.穆諾斯 | 申請(專利權)人: | 淵慧科技有限公司 |
| 主分類號: | G06N3/0464 | 分類號: | G06N3/0464;G06N3/08 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 金玉潔 |
| 地址: | 英國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 噪聲 神經網絡 | ||
方法、系統和裝置,包括在計算機存儲介質上編碼的計算機程序,用于選擇由強化學習代理要執行的動作。該方法包括獲得表征環境的當前狀態的觀察。對于神經網絡的每個噪聲層的每個層參數確定相應的噪聲值。對于每個噪聲層的每個層參數,從層參數的當前值、相應噪聲參數的當前值和噪聲值,確定層參數的噪聲當前值。根據噪聲當前值使用神經網絡處理網絡輸入,以生成網絡輸入的網絡輸出。使用網絡輸出從代理響應于觀察要執行的可能動作集合中選擇動作。
技術領域
本說明書涉及強化學習。
背景技術
在強化學習系統中,代理通過執行由強化學習系統響應于接收表征環境的當前狀態的觀察而選擇的動作來與環境交互。
一些強化學習系統根據神經網絡的輸出,響應于接收給定觀察,選擇由代理執行的動作。
神經網絡是機器學習模型,它使用一層或多層非線性單元來預測接收的輸入的輸出。除了輸出層之外,一些神經網絡是包括一個或多個隱藏層的深度神經網絡。每個隱藏層的輸出用作網絡中下一層(即下一個隱藏層或輸出層)的輸入。網絡的每個層根據相應參數集合的當前值從接收的輸入生成輸出。
發明內容
本說明書描述了在一個或多個位置中的一個或多個計算機上實現為計算機程序的強化學習系統。
根據第一方面,提供了一種訓練神經網絡的方法。神經網絡被配置為接收網絡輸入并處理網絡輸入以生成網絡輸出。神經網絡包括多個層,每個層具有各自的層參數。神經網絡的一個或多個層是噪聲層。該方法包括:維持指定所述多個層中的每個層的每個層參數的當前值的數據,并且對于每個噪聲層的每個層參數,維持層參數的相應噪聲參數的當前值。獲得訓練網絡輸入。為每個噪聲層的每個層參數確定相應的噪聲值。從層參數的當前值、相應噪聲參數的當前值和噪聲值,為每個噪聲層的每個層參數確定層參數的噪聲當前值。根據噪聲當前值使用神經網絡處理訓練輸入,以生成對于訓練輸入的網絡輸出。確定目標函數的梯度,該梯度取決于關于層參數的當前值和噪聲參數的當前值的網絡輸出。從梯度確定對層參數的當前值和噪聲參數的當前值的更新。
稍后描述該方法的一些優點。在一些實現方式中,對每個噪聲層的每個層參數,從所述層參數的當前值、所述對應噪聲參數的當前值和所述噪聲值確定所述層參數的噪聲當前值,包括:將噪聲參數應用于噪聲值以生成噪聲修改器。將噪聲修改器和當前值相加以生成層參數的噪聲值。例如,可以通過噪聲參數的仿射函數、噪聲值和當前參數確定層參數的噪聲當前值。這些方法便利了便于深度探索的噪聲擾動,具有非常少的附加參數。
在一些實現方式中,對每個噪聲層的每個層參數確定相應的噪聲值包括:從預定分布中采樣噪聲值。
在一些實現方式中,對每個噪聲層的每個層參數確定相應的噪聲值包括:對于每個噪聲層,從一個或多個預定分布中采樣預定數量的噪聲值。對于每個噪聲層的每個層參數,通過組合噪聲層的兩個或更多個采樣噪聲值來生成參數的噪聲值。僅通過示例,可通過確定每個采樣噪聲值的函數、然后確定函數的乘積來執行組合。
所描述的技術不對預定的噪聲分布施加任何約束(其通常不具有任何學習的參數)。然而,僅作為示例,這種預定分布可以包括正態分布。
在以下描述的一些示例中,噪聲層的層參數的當前值由變量c表示;相應噪聲參數的當前值為σ;噪聲值是ε;并且層參數的噪聲當前值為n。在一些示例實現方式中,可以使用n=c+σ·ε來確定n的值。
在一些實現方式中,所述神經網絡用于選擇由與環境交互的強化學習代理執行的動作。
在一些實現方式中,所述網絡輸入包括表征所述環境的狀態和來自動作集合的動作的觀察,并且所述網絡輸出是在所述強化學習代理響應于所述觀察執行所述動作的情況下接收的返回的估計。
在一些實現方式中,所述網絡輸入包括表征所述環境狀態的觀察,并且所述網絡輸出定義了所述代理響應于所述觀察要執行的可能動作集合中的動作的似然分布。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淵慧科技有限公司,未經淵慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880018376.1/2.html,轉載請聲明來源鉆瓜專利網。





