[發(fā)明專利]一種基于非自回歸的神經(jīng)機器翻譯解碼加速方法有效
| 申請?zhí)枺?/td> | 202010068170.9 | 申請日: | 2020-01-21 |
| 公開(公告)號: | CN111382582B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計)人: | 楊木潤 | 申請(專利權(quán))人: | 沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/08 |
| 代理公司: | 沈陽新科知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 回歸 神經(jīng) 機器翻譯 解碼 加速 方法 | ||
1.一種基于非自回歸的神經(jīng)機器翻譯解碼加速方法,其特征在于包括以下步驟:
1)采用基于自注意力機制的Transformer模型,構(gòu)造一個包含編碼器解碼器的自回歸神經(jīng)機器翻譯模型;
2)構(gòu)建訓練平行語料,進行分詞和字詞切分預處理流程,得到源語序列和目標語序列,生成機器翻譯詞表后訓練從左到右和從右到左兩個模型直到收斂;
3)移除Transformer中解碼端對未來信息屏蔽的矩陣,同時在自注意力和編碼解碼注意力之間加入多頭位置注意力,構(gòu)造非自回歸機器翻譯模型;
4)使用層級知識精煉的方法,通過強制解碼的方式逐層獲得從左到右和從右到左兩個自回歸翻譯模型的編碼解碼器注意力和隱層狀態(tài),并融合這些輸出;逐層計算其與自回歸模型對應輸出的差異性,將其作為額外的損失,用于模型訓練;
5)使用平行語料訓練加入正則化項后的非自回歸機器翻譯模型,編碼器對源語句子進行編碼,提取源語句子信息,解碼器根據(jù)該信息來預測對應的目標語句子;然后計算預測出的分布與真實數(shù)據(jù)分布的損失,通過反向傳播不斷減少該損失,完成模型的訓練過程;
6)將用戶輸入的源語句子送入機器翻譯模型中,解碼出不同長度的翻譯結(jié)果,并通過自回歸模型的評價來得到最優(yōu)的翻譯結(jié)果;
步驟3)中構(gòu)造非自回歸機器翻譯模型,具體為:
301)移除解碼端對未來信息屏蔽的矩陣后,非自回歸機器翻譯模型將問題建模為:
其中,X為源語序列,Y為目標語序列,T為目標語序列長度,T′為源語序列長度,xt為第t個位置的源語詞,yt為第t個位置的目標語詞;
302)在每個解碼器層中添加額外的多頭位置注意力模塊,該模塊與Transformer模型的其它部分中使用的多頭注意力機制相同,即:
其中,Q為查詢矩陣,K為鍵矩陣,V為值矩陣,softmax(.)為歸一化函數(shù),Attention(.)為注意力計算函數(shù),為鍵矩陣K的維度;
303)在解碼開始之前,將源語的詞嵌入作為目標端的輸入;
步驟4)中使用層級知識精煉的方法為非自回歸模型添加額外的訓練損失,具體為:
401)利用從左到右和從右到左的翻譯模型分別對預處理后的平行預料進行強制解碼,獲取編碼解碼注意力以及隱層狀態(tài);通過一個門控單元融合兩者的信息,具體為:
其中,Hl2r是自左到右模型的輸出,Hr2l為自右到左模型的輸出,g是一個門控單元,g的計算方式為:
g=σ(W1H+W2E+b)
其中,W1、W2和b為三個不同的可學習參數(shù),σ是sigmoid函數(shù),將計算結(jié)果縮放到(0,1)之間,通過對兩個自回歸模型提取的特征進行加權(quán)求和,來增強模型的表示,提供更豐富的信息;
402)選取評價差異性指標,采用KL散度來衡量,其計算方式為:
其中,P(x),Q(x)是隨機變量X上的兩個分布,KL(.)用來計算兩個分布的KL散度;
403)計算自回歸模型和非自回歸模型輸出的KL散度KL(HAT||HNAT),將其作為損失添加到訓練過程。
2.按權(quán)利要求1所述的基于非自回歸的神經(jīng)機器翻譯解碼加速方法,其特征在于:步驟5)非自回歸神經(jīng)機器翻譯的訓練過程中將平行語料送入模型計算交叉熵損失和KL散度損失,然后再計算相應的梯度進行參數(shù)更新來完成訓練過程。
3.按權(quán)利要求1所述的基于非自回歸的神經(jīng)機器翻譯解碼加速方法,其特征在于:步驟6)中,將用戶輸入的源語句子送入到模型中,通過指定不同的目標語長度來獲得多個翻譯結(jié)果;然后,使用自回歸模型作為這些解碼翻譯結(jié)果的打分函數(shù),進而選擇最佳的整體翻譯。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010068170.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于治療支氣管樹的系統(tǒng)、組件和方法
- 一種頸部神經(jīng)信號記錄方法
- 用于在激活褐色脂肪組織時抑制神經(jīng)的方法和裝置
- 一種神經(jīng)元硬件裝置及用這種裝置模擬脈沖神經(jīng)網(wǎng)絡(luò)的方法
- 神經(jīng)移植物及應用其的神經(jīng)移植物系統(tǒng)
- 一種神經(jīng)疏通緩解裝置
- 神經(jīng)移植物及應用其的神經(jīng)移植物系統(tǒng)
- 一種模擬神經(jīng)網(wǎng)芯片的設(shè)計方法及模擬神經(jīng)網(wǎng)芯片
- 神經(jīng)網(wǎng)絡(luò)的剪枝方法、裝置、設(shè)備及存儲介質(zhì)
- 一套無人機神經(jīng)網(wǎng)絡(luò)控制用的人工神經(jīng)元模型





