[發明專利]一種面向神經機器翻譯的編碼器-解碼器框架預訓練方法有效
| 申請號: | 202010068166.2 | 申請日: | 2020-01-21 |
| 公開(公告)號: | CN111382580B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 杜權 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/56;G06F40/279;G06F40/205;G06N3/0455;G06N3/08 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 神經 機器翻譯 編碼器 解碼器 框架 訓練 方法 | ||
1.一種面向神經機器翻譯的編碼器-解碼器框架預訓練方法,其特征在于包括以下步驟:
1)構建海量的多語言文檔級單語語料,將其處理為前句,后句形式的句對,前句和后句為同一種語言,在每個句子前面加入一個特殊的標識符,表示該句的語言種類;
2)對句對進行清洗過濾、分詞、子詞切分預處理,得到訓練數據;
3)使用訓練數據通過下一句生成任務預訓練編碼器-解碼器模型,編碼器提取前句中的信息,將其編碼為一個向量表示,解碼器根據編碼器提取到的信息,解碼生成相同語言的后句內容,預訓練編碼器-解碼器模型通過共享參數對不同語言的單語數據進行訓練,得到收斂后的預訓練模型參數;
4)構建平行語料,再和預訓練編碼器-解碼器模型使用同樣的分詞和子詞切分方式,并且使用相同的模型結構,使用預訓練模型參數初始化神經機器翻譯模型的參數;
5)初始化后的神經機器翻譯模型通過平行語料對模型參數進行微調,完成訓練過程;
6)在解碼階段,使用訓練完成的神經機器翻譯模型的編碼器對源語句子進行編碼,解碼器解碼生成目標語言句子;
步驟3)中,使用訓練數據通過下一句生成任務預訓練編碼器-解碼器模型,模型通過共享參數對不同語言的單語數據進行訓練,具體為:
301)將前句送入模型的編碼器中,編碼器提取前句中的信息,將其編碼為一個向量表示,解碼器根據提取的信息生成后句的內容,增加編碼器和解碼器之間的相關性;
302)對多語言的訓練語料使用共享的詞表和權重,減小不同語言間表示的區別,共享子詞單元,學習到不同語言之間的聯系;使用同一個模型同時預訓練多語言的下一句生成任務,具備提取不同語言序列特征的能力和生成不同語言序列的能力;
303)針對不同語言的輸入,在編碼階段對語言的特性進行提取,在解碼階段針對語言的特性生成不同語言的輸出;通過語言標識方法,模型在提取句子特征的過程中,針對不同的語言進行區分;
304)在編碼器的詞嵌入層加入語言嵌入,表示解碼器要生成的目標語言類別。
2.按權利要求1所述的面向神經機器翻譯的編碼器-解碼器框架預訓練方法,其特征在于:步驟1)中,構建海量的多語言文檔級單語語料,將其處理為前句,后句形式的句對,前句和后句為同一種語言,在每個句子前面加入一個特殊的標識符,表示該句的語種,具體為:
101)對于文檔級單語語料,轉化為前句,后句形式的句對;
102)在每個句子前面加入一個特殊的標識符來表示這個句子對應的語種,通過這種處理,在訓練過程中,模型就可以識別到輸入和輸出對應的語言種類,從而進行特定的編碼和生成。
3.按權利要求1所述的面向神經機器翻譯的編碼器-解碼器框架預訓練方法,其特征在于:步驟2)中,對文檔級單語語料進行清洗過濾、分詞、子詞切分預處理,文檔級單語語料的前句和后句包含部分相近的語義信息,去除長度大于250個字符的句子,并且使用長度比過濾去除長度比大于1:1.5的句對。
4.按權利要求1所述的面向神經機器翻譯的編碼器-解碼器框架預訓練方法,其特征在于:步驟4)中,構建平行語料,和預訓練模型使用同樣的分詞和子詞切分方式,并且使用相同的模型結構,使用預訓練模型參數初始化神經機器翻譯模型的參數,具體為:
401)采用同樣的預處理流程,包括分詞和字詞切分方式,使神經機器翻譯模型和預訓練模型的詞表完全一致,減小預訓練模型和神經機器翻譯模型的差異,減少未登錄詞的出現次數;
402)神經機器翻譯模型需要和預訓練模型使用相同的模型結構,將預訓練模型的參數完整遷移到神經機器翻譯模型中,最大化預訓練方法帶來的收益。
5.按權利要求1所述的面向神經機器翻譯的編碼器-解碼器框架預訓練方法,其特征在于:步驟5)中,神經機器翻譯模型通過平行語料對模型參數進行微調,完成訓練過程,在微調過程中,模型使用0.0001~0.0005的學習率進行參數更新,從而達到更好的收斂狀態。
6.按權利要求1所述的面向神經機器翻譯的編碼器-解碼器框架預訓練方法,其特征在于:步驟6)中解碼階段,使用訓練完成的神經機器翻譯模型的編碼器對源語句子進行編碼,解碼器解碼生成目標語言句子,具體為:
601)在源語句子前面加上語言標識,標識對應的語言種類,并根據要生成的語言種類得到對應的語言嵌入,在編碼器的輸入層和詞嵌入、位置嵌入進行加和,使用編碼器對該句子進行編碼,提取源語言句子中的信息;
602)根據要生成的目標語言類別,設置解碼過程的起始符,根據設置的起始符,解碼器識別要生成的語言類別,然后通過貪婪搜索或者束搜索的方式,生成目標語言的翻譯結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010068166.2/1.html,轉載請聲明來源鉆瓜專利網。





