[發(fā)明專利]利用學徒來訓練動作選擇神經(jīng)網(wǎng)絡在審
| 申請?zhí)枺?/td> | 201880028844.3 | 申請日: | 2018-06-28 |
| 公開(公告)號: | CN110651279A | 公開(公告)日: | 2020-01-03 |
| 發(fā)明(設計)人: | O.皮埃特奎恩;M.里德米勒;王富民;B.皮奧特;M.維塞里克;T.A.海斯特;T.羅瑟爾;T.蘭普;N.M.O.希斯;J.K.肖爾茨 | 申請(專利權)人: | 淵慧科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N3/00 |
| 代理公司: | 11105 北京市柳沈律師事務所 | 代理人: | 金玉潔 |
| 地址: | 英國*** | 國省代碼: | 英國;GB |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 重放緩沖器 神經(jīng)網(wǎng)絡 元組 神經(jīng)網(wǎng)絡系統(tǒng) 動作數(shù)據(jù) 獎勵數(shù)據(jù) 演示 評論 緩沖器 存儲狀態(tài)數(shù)據(jù) 環(huán)境狀態(tài)數(shù)據(jù) 神經(jīng)網(wǎng)絡學習 策略函數(shù) 存儲元組 環(huán)境交互 連續(xù)動作 強化學習 狀態(tài)數(shù)據(jù) 新狀態(tài) 映射 配置 集合 代理 觀察 學習 | ||
1.一種離策略強化學習參與者-評論者神經(jīng)網(wǎng)絡系統(tǒng),用于選擇將由與環(huán)境交互的代理執(zhí)行的動作以執(zhí)行任務,所述系統(tǒng)包括:
第一輸入,用于接收觀察,所述觀察包括表征環(huán)境的狀態(tài)的狀態(tài)數(shù)據(jù),以及表示從在環(huán)境中用動作進行操作而獲得的獎勵的獎勵數(shù)據(jù);
至少一個參與者神經(jīng)網(wǎng)絡,被耦合以接收狀態(tài)數(shù)據(jù)并被配置為定義將狀態(tài)數(shù)據(jù)映射到定義動作的動作數(shù)據(jù)的策略函數(shù),其中,所述至少一個參與者神經(jīng)網(wǎng)絡具有輸出以提供動作數(shù)據(jù)用于代理執(zhí)行動作,并且其中所述環(huán)境響應于動作而轉變到新狀態(tài);
至少一個評論者神經(jīng)網(wǎng)絡,被耦合以接收動作數(shù)據(jù)、狀態(tài)數(shù)據(jù)以及從獎勵數(shù)據(jù)得到的回報數(shù)據(jù),并被配置為定義生成誤差信號的值函數(shù);
重放緩沖器,用于存儲強化學習轉變,所述強化學習轉變包括來自系統(tǒng)的操作的操作轉變數(shù)據(jù),其中,所述操作轉變數(shù)據(jù)包括所述狀態(tài)數(shù)據(jù)、所述動作數(shù)據(jù)、所述獎勵數(shù)據(jù)和表示所述新狀態(tài)的新狀態(tài)數(shù)據(jù)的元組;以及
第二輸入,用于接收定義演示轉變數(shù)據(jù)的訓練數(shù)據(jù),所述演示轉變數(shù)據(jù)包括來自環(huán)境中的任務的演示的所述元組的集合,其中,存儲在重放緩沖器中的強化學習轉變還包括演示轉變數(shù)據(jù);以及
其中,所述神經(jīng)網(wǎng)絡系統(tǒng)被配置為使用誤差信號并使用來自重放緩沖器的存儲元組來訓練至少一個參與者神經(jīng)網(wǎng)絡和至少一個評論者神經(jīng)網(wǎng)絡離策略,所述重放緩沖器包括來自操作轉變數(shù)據(jù)和演示轉變數(shù)據(jù)兩者的元組。
2.根據(jù)權利要求1所述的系統(tǒng),其中,所述獎勵包括稀疏獎勵,所述稀疏獎勵具有取決于環(huán)境的狀態(tài)的多個離散值。
3.根據(jù)權利要求1或2所述的系統(tǒng),其中,僅環(huán)境的狀態(tài)的少數(shù)子集提供獎勵。
4.根據(jù)權利要求1,2或3所述的系統(tǒng),還包括:采樣選擇系統(tǒng),用于根據(jù)采樣概率對強化學習轉變進行采樣,其中,所述采樣概率優(yōu)先對演示轉變數(shù)據(jù)元組進行采樣。
5.根據(jù)權利要求1至4中的任一項所述的系統(tǒng),其中,所述回報數(shù)據(jù)包括獎勵數(shù)據(jù)和來自評論者神經(jīng)網(wǎng)絡的值的組合,所述評論者神經(jīng)網(wǎng)絡的值是從使用參與者神經(jīng)網(wǎng)絡所選擇的動作的(n-1)步向前展示而獲得的;并且其中,所述系統(tǒng)被配置為采用至少兩個不同的n值來訓練網(wǎng)絡。
6.根據(jù)權利要求1至5中的任一項所述的系統(tǒng),被配置為使用包括1步回報和n步回報的混合的回報數(shù)據(jù)來訓練評論者神經(jīng)網(wǎng)絡。
7.根據(jù)權利要求1至6中任一項所述的系統(tǒng),包括學習參與者神經(jīng)網(wǎng)絡和目標參與者神經(jīng)網(wǎng)絡以及學習評論者神經(jīng)網(wǎng)絡和目標評論者神經(jīng)網(wǎng)絡,其中,所述神經(jīng)網(wǎng)絡系統(tǒng)被配置為使用誤差信號更新學習評論者神經(jīng)網(wǎng)絡離策略,其中,從目標評論者神經(jīng)網(wǎng)絡、目標參與者神經(jīng)網(wǎng)絡以及操作轉變數(shù)據(jù)和演示轉變數(shù)據(jù)的存儲元組得到誤差信號;其中,所述系統(tǒng)被配置為使用確定性策略梯度來更新學習參與者神經(jīng)網(wǎng)絡,所述確定性策略梯度包括使用操作轉變數(shù)據(jù)和演示轉變數(shù)據(jù)的存儲元組評估的學習評論者神經(jīng)網(wǎng)絡的輸出的梯度與學習參與者神經(jīng)網(wǎng)絡的輸出的梯度的乘積;并且其中,所述系統(tǒng)被配置為按照一定間隔使用學習參與者神經(jīng)網(wǎng)絡來更新目標參與者神經(jīng)網(wǎng)絡的權重,并使用學習評論者神經(jīng)網(wǎng)絡來更新目標評論者神經(jīng)網(wǎng)絡的權重。
8.根據(jù)權利要求1至7中的任一項所述的系統(tǒng),其中,所述訓練數(shù)據(jù)包括來自機械系統(tǒng)的操縱的運動學教導數(shù)據(jù)。
9.根據(jù)權利要求1至8中的任一項所述的系統(tǒng),還包括安全控制器,用于對動作數(shù)據(jù)施加安全性或其他約束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淵慧科技有限公司,未經(jīng)淵慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880028844.3/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:射頻通信設備及其使用方法
- 下一篇:投影神經(jīng)網(wǎng)絡
- 硬件神經(jīng)網(wǎng)絡轉換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡
- 神經(jīng)網(wǎng)絡的生成方法、生成裝置和電子設備
- 一種舌診方法、裝置、計算設備及計算機存儲介質(zhì)
- 學習神經(jīng)網(wǎng)絡結構
- 脈沖神經(jīng)網(wǎng)絡轉換方法及相關轉換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設備
- 一種適應目標數(shù)據(jù)集的網(wǎng)絡模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構人工神經(jīng)網(wǎng)絡的處理器及其操作方法、電氣設備
- 一種圖像神經(jīng)網(wǎng)絡結構的優(yōu)化方法及裝置
- 一種基于神經(jīng)網(wǎng)絡系統(tǒng)的流化床配方自動生成方法
- 神經(jīng)網(wǎng)絡系統(tǒng)及神經(jīng)網(wǎng)絡系統(tǒng)的訓練裝置和方法
- 神經(jīng)網(wǎng)絡系統(tǒng)及該神經(jīng)網(wǎng)絡系統(tǒng)的訓練方法
- 神經(jīng)網(wǎng)絡系統(tǒng)及對該神經(jīng)網(wǎng)絡系統(tǒng)進行訓練的方法
- 基于BP神經(jīng)網(wǎng)絡的導管架平臺結構響應計算方法
- 神經(jīng)網(wǎng)絡系統(tǒng)生成方法和裝置、圖像處理方法和電子設備
- 網(wǎng)絡攻擊檢測方法
- 神經(jīng)網(wǎng)絡系統(tǒng)中數(shù)據(jù)處理的方法、神經(jīng)網(wǎng)絡系統(tǒng)
- 流體機械葉片的設計與制造
- 以學習的視覺實體為基礎的強化學習神經(jīng)網(wǎng)絡





