[發明專利]生成指令序列以控制執行任務的代理的生成神經網絡系統在審
| 申請號: | 201980008613.0 | 申請日: | 2019-02-11 |
| 公開(公告)號: | CN111602144A | 公開(公告)日: | 2020-08-28 |
| 發明(設計)人: | I.加寧;T.D.庫爾卡尼;O.文雅爾斯;S.M.埃斯拉米 | 申請(專利權)人: | 淵慧科技有限公司 |
| 主分類號: | G06N3/00 | 分類號: | G06N3/00;G06N3/04;G06N3/08 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 金玉潔 |
| 地址: | 英國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生成 指令 序列 控制 執行 任務 代理 神經網絡 系統 | ||
1.一種生成對抗神經網絡系統,所述系統提供執行通過訓練數據定義的任務的動作序列,所述系統包括:
生成器子系統,包括與模擬器耦合的強化學習神經網絡子系統,
強化學習神經網絡子系統,包括:
策略循環神經網絡,在時間步序列中的每個處,根據動作選擇策略選擇要執行的一個或多個動作,并且將所選擇的一個或多個動作提供給所述模擬器,以及其中
模擬器被配置為實施針對時間步所選擇的一個或多個動作以生成模擬器輸出;
鑒別器神經網絡,被配置為在模擬器輸出和訓練數據之間進行鑒別,并且提供鑒別器輸出;以及
訓練子系統,被配置為:i)根據從鑒別器輸出確定的獎勵信號、使用強化學習過程來更新所述策略循環神經網絡的參數,以及ii)根據模擬器輸出與訓練數據之間的差異來更新所述鑒別器神經網絡的參數。
2.根據權利要求1所述的系統,其中,所述模擬器是不可微分的模擬器。
3.根據權利要求1或2所述的系統,其中,所述策略循環神經網絡具有內部狀態,其中,所述強化學習神經網絡子系統是動作器-評判系統,所述強化學習神經網絡子系統還包括價值函數神經網絡以根據所述策略循環神經網絡的內部狀態來確定估計回報,以及其中,所述訓練子系統被配置為使用估計回報來更新策略循環神經網絡的參數。
4.根據權利要求1、2或3所述的系統,包括:多個動作器,每個動作器包括耦合到相應模擬器以生成多個模擬器輸出的策略循環神經網絡的副本;經驗緩沖器,存儲來自模擬器輸出的軌跡,每個軌跡包括一個或多個動作的序列以及相對應的模擬器輸出;以及其中,訓練子系統被配置為使用所存儲的軌跡來更新所述策略循環神經網絡的參數。
5.根據權利要求1至4中的任一項所述的系統,還包括:重放緩沖器,存儲所述模擬器輸出,以及其中,所述鑒別器神經網絡被配置為從所述重放緩沖器采樣以提供所述鑒別器輸出。
6.根據權利要求1至5中的任一項所述的系統,其中,所述訓練子系統被配置為更新所述鑒別器神經網絡的參數,使得所述鑒別器輸出依賴于所述模擬器輸出與訓練數據之間的第一Wasserstein距離。
7.根據權利要求1至6中的任一項所述的系統,其中,所述獎勵信號還包括依賴于所選擇的一個或多個動作的輔助獎勵。
8.根據權利要求1至7中的任一項所述的系統,其中,所述策略循環神經網絡具有輸入以接收定義用于所述模擬器輸出的目標的目標向量,并且其中,以所述目標向量為條件來選擇所述一個或多個動作。
9.根據權利要求8所述的系統,所述系統被配置為提供所述目標向量作為所述鑒別器神經網絡的訓練數據。
10.根據權利要求1至9中的任一項所述的系統,其中,所述模擬器包括可編程信號生成器,并且其中,針對時間步序列所選擇的一個或多個動作包括編程動作,以控制所述可編程信號生成器來提供包括根據編程動作生成的信號的模擬器輸出。
11.根據權利要求1至9中的任一項所述的系統,其中,所述任務是音頻波形或圖像的生成,其中,所述模擬器包括被配置為生成音頻波形或圖像的計算機程序,并且其中,所述動作包括用于所述計算機程序的控制命令。
12.根據權利要求1至9中的任一項所述的系統,其中,所述任務是對機械代理或機電代理的控制,其中,所述模擬器包括被配置為模擬對機械代理或機電代理的控制的計算機程序,并且其中,所述動作包括用于計算機程序的控制命令。
13.根據權利要求1至9中的任一項所述的系統,其中,所述任務是分子的組裝,其中,所述模擬器包括被配置為模擬分子的組裝的計算機程序,并且其中,所述動作包括用于所述計算機程序的控制命令。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淵慧科技有限公司,未經淵慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980008613.0/1.html,轉載請聲明來源鉆瓜專利網。





