[發(fā)明專利]神經(jīng)機(jī)器翻譯的逐深度可分離卷積在審
| 申請(qǐng)?zhí)枺?/td> | 201880028541.1 | 申請(qǐng)日: | 2018-05-21 |
| 公開(公告)號(hào): | CN110612536A | 公開(公告)日: | 2019-12-24 |
| 發(fā)明(設(shè)計(jì))人: | 艾當(dāng)·尼古拉斯·戈麥斯;盧卡什·米奇斯瓦夫·凱澤;弗朗索瓦·肖萊 | 申請(qǐng)(專利權(quán))人: | 谷歌有限責(zé)任公司 |
| 主分類號(hào): | G06N3/04 | 分類號(hào): | G06N3/04 |
| 代理公司: | 11219 中原信達(dá)知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 | 代理人: | 李佳;鄧聰惠 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 神經(jīng)網(wǎng)絡(luò)輸出 編碼器 解碼器 神經(jīng)網(wǎng)絡(luò)處理 輸入文本 自然語言 計(jì)算機(jī)存儲(chǔ)介質(zhì) 卷積神經(jīng)網(wǎng)絡(luò) 機(jī)器翻譯 計(jì)算機(jī)程序 接收輸入 神經(jīng)網(wǎng)絡(luò) 輸出文本 可分離 自回歸 預(yù)測 語言 | ||
用于執(zhí)行機(jī)器翻譯任務(wù)的方法、系統(tǒng)和裝置,包括編碼在計(jì)算機(jī)存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序。一種方法包括:接收輸入語言的輸入文本段;使用編碼器神經(jīng)網(wǎng)絡(luò)處理輸入文本段以生成編碼器神經(jīng)網(wǎng)絡(luò)輸出,該編碼器神經(jīng)網(wǎng)絡(luò)包括多個(gè)逐深度可分離卷積神經(jīng)網(wǎng)絡(luò)層;使用自回歸解碼器神經(jīng)網(wǎng)絡(luò)處理編碼器神經(jīng)網(wǎng)絡(luò)輸出以生成解碼器神經(jīng)網(wǎng)絡(luò)輸出;以及處理解碼器神經(jīng)網(wǎng)絡(luò)輸出以生成預(yù)測的目標(biāo)自然語言的輸出文本段。
相關(guān)申請(qǐng)的交叉引用
本申請(qǐng)是于2017年5月19日提交的美國臨時(shí)專利申請(qǐng)No.62/509,038的非臨時(shí)申請(qǐng)并且要求其優(yōu)先權(quán),該申請(qǐng)的全部內(nèi)容通過引用并入本文。
背景技術(shù)
本說明書涉及神經(jīng)網(wǎng)絡(luò)。
神經(jīng)網(wǎng)絡(luò)是采用一層或多層非線性單元來針對(duì)接收到的輸入預(yù)測輸出的機(jī)器學(xué)習(xí)模型。除了輸出層之外,一些神經(jīng)網(wǎng)絡(luò)包括一個(gè)或多個(gè)隱藏層。每個(gè)隱藏層的輸出被用作對(duì)網(wǎng)絡(luò)中的下一層的輸入,該下一層即下一隱藏層或輸出層。網(wǎng)絡(luò)的每個(gè)層根據(jù)相應(yīng)參數(shù)集的當(dāng)前值來從接收到的輸入生成輸出??梢允褂糜?xùn)練數(shù)據(jù)在機(jī)器學(xué)習(xí)任務(wù)上對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以確定層參數(shù)的經(jīng)訓(xùn)練的值,并且可以將其用于對(duì)神經(jīng)網(wǎng)絡(luò)輸入執(zhí)行機(jī)器學(xué)習(xí)任務(wù)。
發(fā)明內(nèi)容
本說明書描述了用于執(zhí)行機(jī)器翻譯任務(wù)的方法和系統(tǒng),包括在計(jì)算機(jī)存儲(chǔ)介質(zhì)上編碼的計(jì)算機(jī)程序。具體地,描述了基于逐深度可分離卷積(depth wise separableconvolution)運(yùn)算的用于將輸入自然語言的輸入文本段翻譯為目標(biāo)自然語言的對(duì)應(yīng)輸出文本段的示例神經(jīng)網(wǎng)絡(luò)架構(gòu)。
通常,本說明書中描述的主題的一個(gè)創(chuàng)新方面可以體現(xiàn)在一種用于將輸入自然語言的輸入文本段翻譯為對(duì)應(yīng)的目標(biāo)自然語言的輸出文本段的方法中,該方法包括:接收輸入語言的輸入文本段;使用編碼器神經(jīng)網(wǎng)絡(luò)處理輸入文本段以生成編碼器神經(jīng)網(wǎng)絡(luò)輸出,該編碼器神經(jīng)網(wǎng)絡(luò)包括多個(gè)逐深度可分離卷積神經(jīng)網(wǎng)絡(luò)層;以及使用自回歸解碼器神經(jīng)網(wǎng)絡(luò)處理編碼器神經(jīng)網(wǎng)絡(luò)輸出以生成解碼器神經(jīng)網(wǎng)絡(luò)輸出,所生成的解碼器神經(jīng)網(wǎng)絡(luò)輸出表示預(yù)測的目標(biāo)自然語言的輸出文本段。
該方面的其他實(shí)施例包括記錄在一個(gè)或多個(gè)計(jì)算機(jī)存儲(chǔ)設(shè)備上的對(duì)應(yīng)的系統(tǒng)、裝置和計(jì)算機(jī)程序,其中每個(gè)系統(tǒng)、裝置和計(jì)算機(jī)程序都被配置為執(zhí)行方法的動(dòng)作。一個(gè)或多個(gè)計(jì)算機(jī)的系統(tǒng)可以被配置為借助于安裝在系統(tǒng)上的在操作中可以使系統(tǒng)執(zhí)行動(dòng)作的軟件、固件、硬件或其任何組合來執(zhí)行特定操作或動(dòng)作。一個(gè)或多個(gè)計(jì)算機(jī)程序可以被配置為借助于包括在由數(shù)據(jù)處理裝置執(zhí)行時(shí)使裝置執(zhí)行動(dòng)作的指令來執(zhí)行特定操作或動(dòng)作。
可選地,前述和其他實(shí)施例均可以單獨(dú)地或組合地包括以下特征中的一個(gè)或多個(gè)。在一些實(shí)施方式中,使用編碼器神經(jīng)網(wǎng)絡(luò)處理輸入文本段以生成編碼器神經(jīng)網(wǎng)絡(luò)輸出包括:使用輸入嵌入神經(jīng)網(wǎng)絡(luò)層預(yù)處理輸入文本段以生成嵌入的輸入文本段,該輸入嵌入神經(jīng)網(wǎng)絡(luò)層被配置為接收輸入語言的輸入文本段并且將接收到的輸入文本段嵌入到預(yù)定的特征深度中;以及使用編碼器神經(jīng)網(wǎng)絡(luò)處理嵌入的輸入文本段以生成編碼器神經(jīng)網(wǎng)絡(luò)輸出。
在一些實(shí)施方式中,每個(gè)卷積神經(jīng)網(wǎng)絡(luò)層包括(i)修正線性單元非線性組成部分,(ii)逐深度可分離卷積組成部分,以及(iii)神經(jīng)網(wǎng)絡(luò)層歸一化組成部分。
在一些實(shí)施方式中,編碼器神經(jīng)網(wǎng)絡(luò)進(jìn)一步包括一個(gè)或多個(gè)殘差連接。
在一些實(shí)施方式中,編碼器神經(jīng)網(wǎng)絡(luò)包括四個(gè)逐深度可分離卷積神經(jīng)網(wǎng)絡(luò)層,該四個(gè)逐深度可分離卷積神經(jīng)網(wǎng)絡(luò)層在對(duì)第一逐深度可分離卷積神經(jīng)網(wǎng)絡(luò)層的輸入與第二和第四逐深度可分離卷積神經(jīng)網(wǎng)絡(luò)層的輸出之間具有兩個(gè)跳躍連接。
在一些實(shí)施方式中,編碼器神經(jīng)網(wǎng)絡(luò)包括輸入編碼器子神經(jīng)網(wǎng)絡(luò)和輸入-輸出混合器子神經(jīng)網(wǎng)絡(luò)。
在一些實(shí)施方式中,輸入編碼器子神經(jīng)網(wǎng)絡(luò)被配置為處理接收到的輸入文本段并且生成編碼的輸入文本段作為輸出。
在一些實(shí)施方式中,輸入-輸出混合器神經(jīng)網(wǎng)絡(luò)被配置為處理(i)編碼的輸入文本段,以及(ii)先前的解碼器輸出,以生成編碼的輸入-輸出混合器神經(jīng)網(wǎng)絡(luò)輸出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于谷歌有限責(zé)任公司,未經(jīng)谷歌有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880028541.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 混合專家神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 多神經(jīng)網(wǎng)絡(luò)輸出方法及裝置、服務(wù)器、計(jì)算機(jī)可讀介質(zhì)
- 訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法、裝置和系統(tǒng)及存儲(chǔ)指令的存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)優(yōu)化裝置和神經(jīng)網(wǎng)絡(luò)優(yōu)化方法
- 流體機(jī)械葉片的設(shè)計(jì)與制造
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲(chǔ)介質(zhì)
- 應(yīng)用神經(jīng)網(wǎng)絡(luò)的綜合性智能深度學(xué)習(xí)方法
- 一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方法及相關(guān)設(shè)備
- 神經(jīng)網(wǎng)絡(luò)的壓縮方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 使用神經(jīng)網(wǎng)絡(luò)編碼和重構(gòu)輸入
- 使用多核心處理模塊進(jìn)行神經(jīng)網(wǎng)絡(luò)劃分的方法及其系統(tǒng)
- 用于乘加運(yùn)算的人工神經(jīng)網(wǎng)絡(luò)的處理系統(tǒng)及方法
- 神經(jīng)網(wǎng)絡(luò)模型壓縮方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法及裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)系統(tǒng)生成方法和裝置、圖像處理方法和電子設(shè)備
- 一種神經(jīng)網(wǎng)絡(luò)運(yùn)算的系統(tǒng)、方法、裝置及存儲(chǔ)介質(zhì)
- 信息處理裝置和信息處理方法
- 基于EEMD-組合神經(jīng)網(wǎng)絡(luò)空氣處理系統(tǒng)的故障檢測方法及系統(tǒng)
- 一種神經(jīng)網(wǎng)絡(luò)壓縮方法及其相關(guān)設(shè)備





