[發明專利]一種基于解碼器輸入增強的非自回歸神經機器翻譯方法有效
| 申請號: | 202110592520.6 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113468895B | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 杜權;徐萍;楊迪 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F18/214;G06F18/2415;G06N3/0464;G06N3/08 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 解碼器 輸入 增強 回歸 神經 機器翻譯 方法 | ||
1.一種基于解碼器輸入增強的非自回歸神經機器翻譯方法,其特征在于包括以下步驟:
1)采用基于自注意力機制的Transformer模型,移除解碼器對未來信息屏蔽的矩陣并加入多頭位置注意力,構造非自回歸神經機器翻譯模型;
2)構建雙語混合預訓練模型,首先在源語言和目標語言之間使用詞匯歸納來獲得雙語詞典,然后將輸入句子中的某些單詞根據詞典替換為其目標語的對應單詞;采用編碼器解碼器框架,將雙語混合句子作為編碼器的輸入,通過解碼器來預測編碼器中被替換的片段;
3)用雙語混合預訓練模型編碼器的詞嵌入初始化非自回歸神經機器翻譯模型編碼器和解碼器的詞嵌入,將源語的詞嵌入經過長度轉換后作為目標端的輸入;
4)構建訓練平行語料,對源語和目標語構成的雙語平行句對進行分詞,得到源語序列和目標語序列,生成機器翻譯詞表;
5)對構造的非自回歸神經機器翻譯模型進行訓練,通過該模型中的編碼器對源語句子進行編碼,提取源語句子信息,再通過解碼器根據該信息來預測對應的目標語句子;然后計算預測出的分布與真實數據分布的差異,通過反向傳播不斷減少該損失,完成非自回歸神經機器翻譯模型的訓練過程;
6)將用戶輸入的源語句子送入非自回歸神經機器翻譯模型中,解碼出不同長度的翻譯結果,并通過自回歸神經機器翻譯模型的評價選取最優的翻譯結果。
2.按權利要求1所述的基于解碼器輸入增強的非自回歸神經機器翻譯方法,其特征在于:步驟1)中構造自回歸神經機器翻譯模型,具體為:
101)Transformer僅由注意力機制和前饋神經網絡組成,在自注意力機制中,查詢(Query,Q),鍵(Key,K)和值(Value,V)三個矩陣來自相同的表示,首先對三個矩陣分別進行線性變換,然后進行縮放點積操作,即Query與Key進行點積計算,如下述公式所示:
其中,Q為查詢矩陣,K為鍵矩陣,V為值矩陣,softmax(.)為歸一化函數,Attention(.)為注意力計算函數,dk為鍵矩陣的維度;
102)移除解碼器對未來信息屏蔽的矩陣后對翻譯問題進行建模:
其中,X為源語序列,Y為目標語序列,T為目標語序列長度,T′為源語序列長度,t為目標語的位置,x1…T′為源語句子,yt為第t個位置的目標語詞;
103)在每個解碼器層中添加額外的多頭位置注意力模塊,該模塊與Transformer模型的其它部分中使用的多頭注意力機制相同,在這里,位置編碼作為query和key,解碼器隱層狀態作為value;
104)在解碼開始之前,使用源語長度對目標語長度進行預估并將預估的目標語長度數據送至非自回歸神經機器翻譯模型,以便并行生成所有單詞。
3.按權利要求2所述的基于解碼器輸入增強的非自回歸神經機器翻譯方法,其特征在于:步驟104)中,使用源語長度對目標語長度進行預估并將預估的目標語長度數據為:
訓練長度預測模型來預測目標句子和源句子之間的長度偏移;長度預測模型PL接收編碼器的隱藏狀態,經過線性變換并送入到softmax分類器中來生成最終結果。
4.按權利要求1所述的基于解碼器輸入增強的非自回歸神經機器翻譯方法,其特征在于:步驟2)中構建雙語混合預訓練模型,具體為:
201)在源語言和目標語言之間使用詞匯歸納來獲得雙語詞典,具體通過在源端和目標端的單語語料庫X和Y上訓練詞嵌入Xe和Ye,詞匯歸納使用自學習或者對抗學習來學習如下映射函數將源語和目標語映射到同一表示空間下;隨后,使用詞嵌入的余弦距離來衡量源詞和目標詞之間的相似性,通過提取共享詞嵌入空間下的前k個最相似的詞來形成雙語詞典;
202)使用單語數據訓練雙語混合預訓練模型,該模型采用編碼器解碼器框架,根據雙語詞典將輸入句子中的某個片段的連續k個詞以一定的概率p隨機替換為其目標語中的對應單詞;之后通過編碼器-注意力-解碼器模型自回歸的預測生成該被替換的片段,讓解碼器從編碼器端提取信息來幫助連續片段的預測,從而促進編碼器-注意力-解碼器結構的聯合訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110592520.6/1.html,轉載請聲明來源鉆瓜專利網。





