[發明專利]一種面向神經機器翻譯的編碼器-解碼器框架預訓練方法有效

申請號：	202010068166.2	申請日：	2020-01-21
公開（公告）號：	CN111382580B	公開（公告）日：	2023-04-18
發明（設計）人：	杜權	申請（專利權）人：	沈陽雅譯網絡技術有限公司
主分類號：	G06F40/58	分類號：	G06F40/58;G06F40/56;G06F40/279;G06F40/205;G06N3/0455;G06N3/08
代理公司：	沈陽新科知識產權代理事務所(特殊普通合伙) 21117	代理人：	李曉光
地址：	110004 遼寧省沈陽市***	國省代碼：	遼寧;21
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種面向神經機器翻譯編碼器解碼器框架訓練方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種面向神經機器翻譯的編碼器-解碼器框架預訓練方法，其特征在于包括以下步驟：

1)構建海量的多語言文檔級單語語料，將其處理為前句，后句形式的句對，前句和后句為同一種語言，在每個句子前面加入一個特殊的標識符，表示該句的語言種類；

2)對句對進行清洗過濾、分詞、子詞切分預處理，得到訓練數據；

3)使用訓練數據通過下一句生成任務預訓練編碼器-解碼器模型，編碼器提取前句中的信息，將其編碼為一個向量表示，解碼器根據編碼器提取到的信息，解碼生成相同語言的后句內容，預訓練編碼器-解碼器模型通過共享參數對不同語言的單語數據進行訓練，得到收斂后的預訓練模型參數；

4)構建平行語料，再和預訓練編碼器-解碼器模型使用同樣的分詞和子詞切分方式，并且使用相同的模型結構，使用預訓練模型參數初始化神經機器翻譯模型的參數；

5)初始化后的神經機器翻譯模型通過平行語料對模型參數進行微調，完成訓練過程；

6)在解碼階段，使用訓練完成的神經機器翻譯模型的編碼器對源語句子進行編碼，解碼器解碼生成目標語言句子；

步驟3)中，使用訓練數據通過下一句生成任務預訓練編碼器-解碼器模型，模型通過共享參數對不同語言的單語數據進行訓練，具體為：

301)將前句送入模型的編碼器中，編碼器提取前句中的信息，將其編碼為一個向量表示，解碼器根據提取的信息生成后句的內容，增加編碼器和解碼器之間的相關性；

302)對多語言的訓練語料使用共享的詞表和權重，減小不同語言間表示的區別，共享子詞單元，學習到不同語言之間的聯系；使用同一個模型同時預訓練多語言的下一句生成任務，具備提取不同語言序列特征的能力和生成不同語言序列的能力；

303)針對不同語言的輸入，在編碼階段對語言的特性進行提取，在解碼階段針對語言的特性生成不同語言的輸出；通過語言標識方法，模型在提取句子特征的過程中，針對不同的語言進行區分；

304)在編碼器的詞嵌入層加入語言嵌入，表示解碼器要生成的目標語言類別。

2.按權利要求1所述的面向神經機器翻譯的編碼器-解碼器框架預訓練方法，其特征在于：步驟1)中，構建海量的多語言文檔級單語語料，將其處理為前句，后句形式的句對，前句和后句為同一種語言，在每個句子前面加入一個特殊的標識符，表示該句的語種，具體為：

101)對于文檔級單語語料，轉化為前句，后句形式的句對；

102)在每個句子前面加入一個特殊的標識符來表示這個句子對應的語種，通過這種處理，在訓練過程中，模型就可以識別到輸入和輸出對應的語言種類，從而進行特定的編碼和生成。

3.按權利要求1所述的面向神經機器翻譯的編碼器-解碼器框架預訓練方法，其特征在于：步驟2)中，對文檔級單語語料進行清洗過濾、分詞、子詞切分預處理，文檔級單語語料的前句和后句包含部分相近的語義信息，去除長度大于250個字符的句子，并且使用長度比過濾去除長度比大于1:1.5的句對。

4.按權利要求1所述的面向神經機器翻譯的編碼器-解碼器框架預訓練方法，其特征在于：步驟4)中，構建平行語料，和預訓練模型使用同樣的分詞和子詞切分方式，并且使用相同的模型結構，使用預訓練模型參數初始化神經機器翻譯模型的參數，具體為：

401)采用同樣的預處理流程，包括分詞和字詞切分方式，使神經機器翻譯模型和預訓練模型的詞表完全一致，減小預訓練模型和神經機器翻譯模型的差異，減少未登錄詞的出現次數；

402)神經機器翻譯模型需要和預訓練模型使用相同的模型結構，將預訓練模型的參數完整遷移到神經機器翻譯模型中，最大化預訓練方法帶來的收益。

5.按權利要求1所述的面向神經機器翻譯的編碼器-解碼器框架預訓練方法，其特征在于：步驟5)中，神經機器翻譯模型通過平行語料對模型參數進行微調，完成訓練過程，在微調過程中，模型使用0.0001～0.0005的學習率進行參數更新，從而達到更好的收斂狀態。

6.按權利要求1所述的面向神經機器翻譯的編碼器-解碼器框架預訓練方法，其特征在于：步驟6)中解碼階段，使用訓練完成的神經機器翻譯模型的編碼器對源語句子進行編碼，解碼器解碼生成目標語言句子，具體為：

601)在源語句子前面加上語言標識，標識對應的語言種類，并根據要生成的語言種類得到對應的語言嵌入，在編碼器的輸入層和詞嵌入、位置嵌入進行加和，使用編碼器對該句子進行編碼，提取源語言句子中的信息；

602)根據要生成的目標語言類別，設置解碼過程的起始符，根據設置的起始符，解碼器識別要生成的語言類別，然后通過貪婪搜索或者束搜索的方式，生成目標語言的翻譯結果。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司，未經沈陽雅譯網絡技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010068166.2/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載