[發明專利]混合專家神經網絡在審
| 申請號: | 201780068472.2 | 申請日: | 2017-11-03 |
| 公開(公告)號: | CN109923558A | 公開(公告)日: | 2019-06-21 |
| 發明(設計)人: | N.M.沙澤爾;A.米爾霍西尼;K.S.馬齊亞爾茲 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 金玉潔 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 輸出 第一層 子網 輸入提供 選通 輸出選擇 權重 配置 | ||
1.一種系統,包括:
由一個或多個計算機實施的主神經網絡,所述主神經網絡包括所述主神經網絡中的第一神經網絡層和第二神經網絡層之間的混合專家(MOE)子網,其中所述MOE子網包括:
多個專家神經網絡,其中每個專家神經網絡被配置為根據所述專家神經網絡的相應的專家參數集來處理由所述第一神經網絡層生成的第一層輸出,以生成相應的專家輸出,以及
選通子系統,被配置為:
基于所述第一層輸出來選擇所述專家神經網絡中的一個或多個專家神經網絡,并為每個所選擇的專家神經網絡確定相應權重,
將所述第一層輸出作為輸入提供給所選擇的專家神經網絡中的每一個專家神經網絡;
根據所選擇的專家神經網絡的權重來組合由所選擇的專家神經網絡生成的專家輸出,以生成MoE輸出,以及
將所述MoE輸出作為輸入提供給所述第二神經網絡層。
2.根據權利要求1所述的系統,其中,所述專家神經網絡具有相同或相似的架構,但是具有不同的參數值。
3.根據權利要求1或2中任一項所述的系統,其中,組合由所選擇的專家神經網絡生成的專家輸出包括:
按所選擇的專家神經網絡的權重對由所選擇的專家神經網絡中的每一個專家神經網絡生成的專家輸出進行加權,以生成加權專家輸出,以及
將所述加權專家輸出求和以生成所述MoE輸出。
4.根據權利要求1-3中任一項所述的系統,
其中所述選通子系統包括選通子網,并且其中所述選通子網被配置為:
根據選通參數集來處理所述第一層輸出以生成包括所述多個專家神經網絡中的每一個專家神經網絡的相應權重的權重向量,以及
基于所述權重向量中的權重來選擇所述專家神經網絡中的一個或多個專家神經網絡。
5.根據權利要求4所述的系統,其中所述權重向量是僅針對所述專家神經網絡中的少數專家神經網絡包括非零權重的稀疏向量。
6.根據權利要求4或5中任一項所述的系統,其中,選擇一個或多個所述專家神經網絡包括:
僅選擇在所述權重向量中具有非零權重的專家神經網絡。
7.根據權利要求4-6中任一項所述的系統,其中,根據選通參數集來處理所述第一層輸出以生成包括所述多個專家神經網絡中的每一個專家神經網絡的相應權重的權重向量包括:
生成初始選通輸出,其中生成所述初始選通輸出包括將所述選通參數集應用于所述第一層輸出;
將稀疏化函數應用于所述初始選通輸出,以生成稀疏化的初始選通輸出;以及
將softmax函數應用于所述稀疏化的初始選通輸出以生成所述權重向量。
8.根據權利要求7所述的系統,其中,生成所述初始選通輸出包括:
將所述選通參數集應用于所述第一層輸出,以生成修改后的第一層輸出;以及
將可調諧高斯噪聲添加到所述修改后的第一層輸出,以生成所述初始選通輸出。
9.根據權利要求8所述的系統,其中,將可調諧高斯噪聲添加到所述修改后的第一層輸出以生成所述初始選通輸出包括:
將可訓練噪聲參數集應用于所述第一層輸出,以生成初始噪聲輸出;
將所述初始噪聲輸出與從正態分布中采樣的噪聲值的向量按元素相乘,以生成最終噪聲輸出;以及
將所述最終噪聲輸出添加到所述修改后的第一層輸出。
10.根據權利要求7-9中任一項所述的系統,其中,所述稀疏化函數將所述初始選通輸出中除了k個最高值以外的所有值設置為被softmax函數映射為零的值。
11.根據權利要求1-3中任一項所述的系統,其中所述選通子系統包括父選通子網和多個子選通子網,并且其中所述子選通子網中的每一個子選通子網管理所述多個專家神經網絡的與每個其他子選通子網不相交的子集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780068472.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:使用連續正則化訓練聯合多任務神經網絡模型
- 下一篇:準循環神經網絡





