[發明專利]混合專家神經網絡在審
| 申請號: | 201780068472.2 | 申請日: | 2017-11-03 |
| 公開(公告)號: | CN109923558A | 公開(公告)日: | 2019-06-21 |
| 發明(設計)人: | N.M.沙澤爾;A.米爾霍西尼;K.S.馬齊亞爾茲 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 金玉潔 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 輸出 第一層 子網 輸入提供 選通 輸出選擇 權重 配置 | ||
一種包括神經網絡的系統,神經網絡包括第一神經網絡層和第二神經網絡層之間的混合專家(MoE)子網。MoE子網包括多個專家神經網絡。每個專家神經網絡被配置為處理由第一神經網絡層生成的第一層輸出,以生成相應的專家輸出。MoE子網還包括選通子系統,選通子系統基于第一層輸出選擇專家神經網絡中的一個或多個并為每個所選擇的專家神經網絡確定相應權重,將第一層輸出作為輸入提供給所選擇的專家神經網絡中的每一個,根據所選擇的專家神經網絡的權重來組合由所選擇的專家神經網絡生成的專家輸出以生成MoE輸出,以及將MoE輸出作為輸入提供給第二神經網絡層。
相關申請的交叉引用
本申請要求于2016年11月4日提交的美國臨時申請序列號62/418,135和于2016年12月9日提交的美國臨時申請序列號62/432,497的優先權。在先申請的公開內容被認為是本申請公開內容的一部分,并通過引用結合于此。
背景技術
本說明書涉及通過神經網絡層處理輸入以生成輸出。
神經網絡是采用一層或多層非線性單元來預測接收到的輸入的輸出的機器學習模型。一些神經網絡除了輸出層之外還包括一個或多個隱藏層。每個隱藏層的輸出被用作網絡中另一層(即另一隱藏層或輸出層)的輸入。網絡的每一層根據相應參數集的當前值從接收到的輸入生成輸出。
發明內容
一般而言,本說明書中描述的主題的一個創新方面可以體現在在包括神經網絡的一個或多個位置處的一個或多個計算機上被實施為計算機程序的系統中。神經網絡包括神經網絡中的第一神經網絡層和第二神經網絡層之間的混合專家(Mixture of Experts,MoE)子網。MoE子網包括多個專家神經網絡,其中每個專家神經網絡被配置為根據專家神經網絡的相應專家參數集來處理由第一神經網絡層生成的第一層輸出,以生成相應的專家輸出。MoE子網還包括選通子系統,選通子系統被配置為:基于第一層輸出來選擇專家神經網絡中的一個或多個并為每個所選擇的專家神經網絡確定相應權重,將第一層輸出作為輸入提供給所選擇的專家神經網絡中的每一個,根據所選擇的專家神經網絡的權重來組合由所選擇的專家神經網絡生成的專家輸出以生成MoE輸出,以及將MoE輸出作為輸入提供給第二神經網絡層。
前述內容和其他實施例可以各自可選地單獨或以組合的形式包括以下特征中的一個或多個。專家神經網絡可以具有相同或相似的架構,但是具有不同的參數值。組合由所選擇的專家神經網絡生成的專家輸出可以包括:按所選擇的專家神經網絡的權重對由所選擇的專家神經網絡中的每一個生成的專家輸出進行加權,以生成加權專家輸出,并將加權專家輸出求和以生成MoE輸出。選通子系統可以包括選通子網,其中選通子網被配置為:根據選通參數集來處理第一層輸出以生成包括多個專家神經網絡中的每一個的相應權重的權重向量,以及基于權重向量中的權重來選擇專家神經網絡中的一個或多個。權重向量可以是僅針對專家神經網絡中的少數專家神經網絡包括非零權重的稀疏向量。選擇一個或多個專家神經網絡可以包括僅選擇在權重向量中具有非零權重的專家神經網絡。
根據選通參數集來處理第一層輸出以生成包括多個專家神經網絡中的每一個的相應權重的權重向量包括:生成初始選通輸出,其中生成初始選通輸出包括將選通參數集應用于第一層輸出;將稀疏化函數應用于初始選通輸出,以生成稀疏化的初始選通輸出;以及將softmax函數應用于稀疏化的初始選通輸出以生成權重向量。
生成初始選通輸出可以包括:將選通參數集應用于第一層輸出,以生成修改后的第一層輸出;以及將可調諧高斯噪聲添加到修改后的第一層輸出,以生成初始選通輸出。將可調諧高斯噪聲添加到修改后的第一層輸出以生成初始選通輸出可以包括:將可訓練噪聲參數集應用于第一層輸出,以生成初始噪聲輸出;將初始噪聲輸出與從正態分布采樣的噪聲值的向量按元素相乘,以生成最終噪聲輸出;以及將最終噪聲輸出添加到修改后的第一層輸出。稀疏化函數將初始選通輸出中除了k個最高值以外的所有值設置為被softmax函數映射為零的值。選通子系統包括父選通子網和多個子選通子網,其中子選通子網中的每一個管理多個專家神經網絡的與每個其他子選通子網不相交的子集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780068472.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:使用連續正則化訓練聯合多任務神經網絡模型
- 下一篇:準循環神經網絡





