[發明專利]生成指令序列以控制執行任務的代理的生成神經網絡系統在審
| 申請號: | 201980008613.0 | 申請日: | 2019-02-11 |
| 公開(公告)號: | CN111602144A | 公開(公告)日: | 2020-08-28 |
| 發明(設計)人: | I.加寧;T.D.庫爾卡尼;O.文雅爾斯;S.M.埃斯拉米 | 申請(專利權)人: | 淵慧科技有限公司 |
| 主分類號: | G06N3/00 | 分類號: | G06N3/00;G06N3/04;G06N3/08 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 金玉潔 |
| 地址: | 英國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生成 指令 序列 控制 執行 任務 代理 神經網絡 系統 | ||
生成對抗神經網絡系統,提供執行任務的動作序列。系統包括耦合到模擬器的強化學習神經網絡子系統和鑒別器神經網絡。強化學習神經網絡子系統包括策略循環神經網絡,以在時間步序列中的每個處,根據動作選擇策略選擇要執行的一個或多個動作,每個動作包括一個或多個模擬器的控制命令。模擬器被配置為執行時間步的控制命令以生成模擬器輸出。鑒別器神經網絡被配置為在模擬器輸出和訓練數據之間進行鑒別,以提供用于強化學習的獎勵信號。模擬器可以是不可微分的模擬器,例如用于產生圖像或音頻波形的計算機程序或用于控制機器人或車輛的程序。
背景技術
本說明書涉及生成數據項的神經網絡系統。
神經網絡是采用一個或多個非線性單元層來預測針對所接收的輸入的輸出的機器學習模型。一些神經網絡除了輸出層之外還包括一個或多個隱藏層。每個隱藏層的輸出用作網絡中下一層(即,下一隱藏層或輸出層)的輸入。網絡的每個層根據相應的參數集的當前值從所接收的輸入生成輸出。
一些神經網絡是循環神經網絡。循環神經網絡是接收輸入序列并且從輸入序列生成輸出序列的神經網絡。具體地,循環神經網絡可以在計算當前時間步(time step)處的輸出時,使用來自先前時間步的網絡的內部狀態的部分或全部。循環神經網絡的示例是包括一個或多個長短期(long short term,LSTM)記憶塊(memory block)的長短期(LSTM)神經網絡。每個LSTM記憶塊可以包括一個或多個單元(cell),每個單元包括輸入門、忘記門和輸出門,其允許該單元存儲該單元的先前狀態,例如,用于生成當前激活或提供到LSTM神經網絡的其他組件。
發明內容
本說明書描述了實施為在一個或多個位置中的一個或多個計算機上的計算機程序的系統,其生成動作序列,具體地,構成用于執行任務的程序形式的控制命令或指令。在實施方式中,指令序列用于控制代理(即模擬器),諸如用于生成圖像的圖形軟件或者用于生成諸如語音的聲音的音頻軟件,或者配置為模擬機械代理或機電代理的操作的模擬器。一旦受過訓練,系統就可以被用于提供指令序列來控制相同或另一代理以執行例如現實世界中的任務。
根據第一方面,生成對抗神經網絡系統——具體地用于提供執行通過訓練數據定義的任務的動作序列——包括生成器子系統,該生成器子系統包括耦合至模擬器的強化學習神經網絡子系統。強化學習神經網絡子系統可以包括策略循環神經網絡,用于在時間步序列中的每個處,根據動作選擇策略來選擇要執行的一個或多個動作,并且將所選擇的一個或多個動作提供給模擬器例如,提供給模擬器的一個或多個控制輸入。這樣的控制輸入可以包括數據輸入、和/或電或光信號輸入、和/或機械控制輸入。模擬器可以被配置為實施針對時間步所選擇的一個或多個動作,以生成模擬器輸出。
生成對抗神經網絡系統可以進一步包括鑒別器神經網絡,該鑒別器神經網絡被配置為在模擬器輸出與系統的訓練數據之間進行鑒別并且提供鑒別器輸出。訓練子系統可以被配置為根據從鑒別器輸出確定的獎勵信號、使用強化學習過程來更新策略循環神經網絡的參數。訓練子系統還可以被配置為根據模擬器輸出與訓練數據之間的差異來更新鑒別器神經網絡的參數。
在一些實施方式中,這樣的系統允許將不可微分的(non-differentiable)模擬器用作生成器的部分。在這里,不可微分意味著不可能將梯度從模擬器輸出反向傳播到模擬器控制輸入。
模擬器可以是能夠從控制動作序列中產生數據項或信號的任何系統,例如,用于產生圖像的CAD(計算機輔助設計)程序。訓練數據可以具有與模擬器輸出(例如CAD程序嘗試再現的圖像)相同的類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淵慧科技有限公司,未經淵慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980008613.0/2.html,轉載請聲明來源鉆瓜專利網。





