[發明專利]神經機器翻譯的逐深度可分離卷積在審
| 申請號: | 201880028541.1 | 申請日: | 2018-05-21 |
| 公開(公告)號: | CN110612536A | 公開(公告)日: | 2019-12-24 |
| 發明(設計)人: | 艾當·尼古拉斯·戈麥斯;盧卡什·米奇斯瓦夫·凱澤;弗朗索瓦·肖萊 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04 |
| 代理公司: | 11219 中原信達知識產權代理有限責任公司 | 代理人: | 李佳;鄧聰惠 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡輸出 編碼器 解碼器 神經網絡處理 輸入文本 自然語言 計算機存儲介質 卷積神經網絡 機器翻譯 計算機程序 接收輸入 神經網絡 輸出文本 可分離 自回歸 預測 語言 | ||
1.一種用于將輸入自然語言的輸入文本段翻譯為目標自然語言的對應輸出文本段的計算機實施的方法,所述方法包括:
接收所述輸入語言的輸入文本段;
使用編碼器神經網絡處理所述輸入文本段,以生成編碼器神經網絡輸出,所述編碼器神經網絡包括多個逐深度可分離卷積神經網絡層;以及
使用自回歸解碼器神經網絡處理所述編碼器神經網絡輸出以生成解碼器神經網絡輸出,所生成的解碼器神經網絡輸出表示所述目標自然語言的預測輸出文本段。
2.根據權利要求1所述的方法,其中,使用編碼器神經網絡處理所述輸入文本段以生成編碼器神經網絡輸出包括:
使用輸入嵌入神經網絡層來預處理所述輸入文本段以生成嵌入的輸入文本段,所述輸入嵌入神經網絡層被配置為接收所述輸入語言的輸入文本段并且將所接收的輸入文本段嵌入到預定的特征深度中;以及
使用所述編碼器神經網絡處理所述嵌入的輸入文本段以生成編碼器神經網絡輸出。
3.根據權利要求1或2所述的方法,其中,每個卷積神經網絡層包括(i)修正線性單元非線性組成部分,(ii)逐深度可分離卷積組成部分,以及(iii)神經網絡層歸一化組成部分。
4.根據權利要求3所述的方法,其中,所述編碼器神經網絡進一步包括一個或多個殘差連接。
5.根據權利要求4所述的方法,其中,所述編碼器神經網絡包括四個逐深度可分離卷積神經網絡層,所述逐四個深度可分離卷積神經網絡層在第一逐深度可分離卷積神經網絡層的輸入與第二和第四逐深度可分離卷積神經網絡層的輸出之間具有兩個跳躍的連接。
6.根據權利要求1至5中任一項所述的方法,其中,所述編碼器神經網絡包括輸入編碼器子神經網絡和輸入-輸出混合器子神經網絡。
7.根據權利要求6所述的方法,其中,所述輸入編碼器子神經網絡被配置為處理所接收的輸入文本段并且生成編碼的輸入文本段作為輸出。
8.根據權利要求7所述的方法,其中,所述輸入-輸出混合器神經網絡被配置為處理(i)所述編碼的輸入文本段,以及(ii)先前的解碼器輸出,以生成編碼的輸入-輸出混合器神經網絡輸出。
9.根據權利要求8所述的方法,其中,所述自回歸解碼器神經網絡被配置為從所述輸入編碼器子神經網絡和所述輸入-輸出混合器神經網絡接收輸入。
10.根據權利要求9所述的方法,其中,所述編碼器神經網絡輸出包括拼接的輸入編碼器子神經網絡輸出和輸入-輸出混合器神經網絡輸出。
11.根據權利要求1至10中任一項所述的方法,其中,所述自回歸解碼器神經網絡包括一個或多個卷積神經網絡層。
12.根據權利要求1至11中任一項所述的方法,其中,所述自回歸解碼器神經網絡和所述編碼器神經網絡包括注意力機制。
13.根據權利要求12所述的方法,其中,所述注意力機制包括內積注意力機制,所述內積注意力機制接收(i)形狀為[M,深度]的源張量,以及(ii)形狀為[N,深度]的目標張量,作為輸入。
14.根據權利要求12所述的方法,其中,所述注意力機制是通過給出的。
15.根據權利要求1至14中任一項所述的方法,其中,所述逐深度可分離卷積神經網絡層中的一個或多個包括超可分離卷積神經網絡層,其中,超可分離卷積神經網絡層是最終卷積運算被分解的逐深度可分離卷積神經網絡層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880028541.1/1.html,轉載請聲明來源鉆瓜專利網。





