[發明專利]基于預訓練雙語詞向量的神經機器翻譯方法在審
| 申請號: | 202110566113.8 | 申請日: | 2021-05-24 |
| 公開(公告)號: | CN113297841A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 朱聰慧;趙鐵軍;劉哲寧;曹海龍;楊沐昀;徐冰 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/284;G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 劉景祥 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 訓練 雙語 向量 神經 機器翻譯 方法 | ||
1.一種基于預訓練雙語詞向量的神經機器翻譯方法,其特征在于,包括以下步驟:
步驟S1,將標注平行語料進行源語言-目標語言拼接,利用拼接后的標注平行語料對XLM模型進行預訓練,并使用交叉熵損失函數計算損失值,將所述損失值輸入優化器Adam進行所述XLM模型參數的更新優化;
步驟S2,取出預訓練后的XLM模型的詞向量矩陣,以初始化transformer模型的編碼器的詞向量矩陣和解碼器的詞向量矩陣;
步驟S3,將所述拼接后的標注平行語料的源語言相繼輸入至所述transformer模型的編碼器中進行詞向量化操作,將源語言的向量表示以及對應的目標語言輸入所述解碼器,得到預測序列,將所述預測序列與預設目標序列進行對比,并使用交叉熵損失函數計算損失值,將該損失值輸入優化器Adam進行所述transformer模型參數的更新優化,迭代該過程,當所述損失值達到最小時,停止參數的優化更新并輸出此刻的transformer模型;
步驟S4,在某個時間步里,將源語言輸入所述transformer模型的編碼器,編碼器輸出相應的向量表示,將該向量表示以及上一時間步翻譯的目標語言詞輸入所述transformer模型的解碼器,解碼器輸出該時間步的目標詞,并將不同時間步翻譯的目標詞按時間順序進行拼接,得到源語言翻譯的最終結果,其中,同一時間步依賴源語言只能翻譯得到目標語言中的一個詞。
2.根據權利要求1所述的基于預訓練雙語詞向量的神經機器翻譯方法,其特征在于,所述預訓練的任務包括隨機語言建模、遮蓋語言建模或翻譯語言建模。
3.根據權利要求2所述的基于預訓練雙語詞向量的神經機器翻譯方法,其特征在于,在所述步驟S1中,
當所述XLM模型僅僅設置所述隨機語言建模任務或所述遮蓋語言建模任務進行預訓練時,只需要對非平行語料的源語言或目標語言采樣任意數量的句子進行拼接,并取拼接單句前256個詞作為輸入語句輸入到所述XLM模型中;
當XLM設置所述翻譯語言建模時,需要將標注平行語料中的源語言和目標語言使用句子分隔符拼接,再將拼接的整句作為單句輸入到所述XLM模型中。
4.根據權利要求3所述的基于預訓練雙語詞向量的神經機器翻譯方法,其特征在于,所述步驟S1中所述XLM模型對所述輸入語句或所述單句處理的具體過程為:
當所述預訓練的任務為所述隨機語言建模任務時,給定句中詞wt之前出現的詞,建模wt出現在詞w1,…,wt-1之后的概率P(wt|w1,…,wt-1,θ),即直接使用transformer encoder來預測下一個詞出現的概率;
當所述預訓練的任務為所述遮蓋語言建模任務時,按預設概率采樣所述輸入語句的詞,同時將被采樣的詞按80%的概率被“[MASK]”替換,按10%的概率被隨機替換成預設其他詞,按10%的概率保持原詞,在XLM在型的頂層預測被遮住的詞;
當所述預訓練的任務為所述翻譯語言建模任務時,隨機遮蓋所述單句的源語言部分和目標語言部分,所述XLM模型需要同時參考被遮蓋詞在源語言部分的周圍詞和目標語言部分的詞,進而預測源語言部分被遮蓋的詞。
5.根據權利要求1所述的基于預訓練雙語詞向量的神經機器翻譯方法,其特征在于,所述編碼器由六層編碼層構成,每層編碼層包括多頭自注意力網絡、殘差連接、層歸一化和前饋神經網絡堆疊,且每層編碼層將上一編碼層輸出的結果作為輸入。
6.根據權利要求5所述的基于預訓練雙語詞向量的神經機器翻譯方法,其特征在于,所述步驟S3中將源語言輸入所述編碼器后的具體處理為:
將所述源語言對所述transformer模型的編碼器中進行詞向量化操作,其中,需將所述詞向量化操作的結果與位置編碼相加,再將相加后的結果輸入到所述編碼器中,先由所述多頭自注意力網絡計算,再經過殘差連接和層歸一化計算,獲得所述源語言的向量表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110566113.8/1.html,轉載請聲明來源鉆瓜專利網。





