[發明專利]一種知識增強的非自回歸神經機器翻譯方法及裝置在審
| 申請號: | 202210243650.3 | 申請日: | 2022-03-12 |
| 公開(公告)號: | CN114611488A | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 王亦寧;劉升平;梁家恩 | 申請(專利權)人: | 云知聲智能科技股份有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/284;G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100096 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識 增強 回歸 神經 機器翻譯 方法 裝置 | ||
一種知識增強的非自回歸神經機器翻譯方法及裝置,該方法將雙語平行語言對進行數據預處理和詞向量編碼;將源語言的詞向量表示輸入到編碼器網絡中,所述編碼器網絡將源語言文檔信息進行編碼,得到輸入詞序列信息的編碼表示;使用詞對齊模型構建源語言和目標語言的對應關系,構建繁衍率模型;構建解碼器模型的輸入和輸出編碼表示;通過條件隨機場模型建立目標語言詞匯之間的依賴,依次解碼生成最終的翻譯結果。本發明在解碼端使用條件隨機場進行解碼;預訓練語言模型本身帶有較強的上下文信息,條件隨機場構建了上下文依賴關系,緩解了非自回歸翻譯中較為容易出現的大量重翻、漏翻和前后不一致的現象,有利于得到更高質量的翻譯結果。
技術領域
本發明屬于機器翻譯技術領域,具體涉及一種知識增強的非自回歸神經機器翻譯方法及裝置。
背景技術
神經機器翻譯是使用一種自回歸的解碼方式,從左到右依次解碼生成目標語言,這種特性導致解碼過程中,不同位置的單詞無法并行生成。而非自回歸翻譯摒棄了目標端語言生成過程的時序性,由于其解碼過程不依賴于之前翻譯結果,從而獲得很高的推理速度,在解碼過程中能夠同時生成所有目標語言詞匯,大大加快了模型的解碼速度。
當前的非自回歸翻譯方法同時生成所有時刻的目標語言詞匯,雖然極大地提升了解碼速度,但是摒棄了詞匯之間的依賴性,容易造成翻譯內容前后不一致、遺漏翻譯內容或同樣內容重復多次的翻譯結果,翻譯質量較差,無法滿足正常的高質量翻譯需求。
發明內容
為此,本發明提供一種知識增強的非自回歸神經機器翻譯方法及裝置,解決在非自回歸神經機器翻譯中,目標語言文本生成無法依賴上下文信息,容易出現重翻、漏翻和翻譯前后不一致的問題。
為了實現上述目的,本發明提供如下技術方案:一種知識增強的非自回歸神經機器翻譯方法,包括以下步驟:
(1)將雙語平行語言對進行數據預處理和詞向量編碼;
(2)將源語言的詞向量表示輸入到編碼器網絡中,所述編碼器網絡將源語言文檔信息進行編碼,得到輸入詞序列信息的編碼表示;
(3)使用詞對齊模型構建源語言和目標語言的對應關系,構建繁衍率模型;
(4)構建解碼器模型的輸入和輸出編碼表示;
(5)通過條件隨機場模型建立目標語言詞匯之間的依賴,依次解碼生成最終的翻譯結果。
作為知識增強的非自回歸神經機器翻譯方法的優選方案,步驟(1)包括:
(11)使用BPE算法將所有訓練語料中句子進行亞詞切分;
(12)預定義表示源語言的亞詞序列,使用預訓練模型得到源語言的詞向量編碼表示;
(13)獲取源語言輸入序列的位置向量編碼;
(14)將所述詞向量編碼與所述位置向量編碼相加,得到源語言的輸入編碼表示。
作為知識增強的非自回歸神經機器翻譯方法的優選方案,步驟(2)包括:
(21)獲取源語言經過詞向量預處理的詞序列矩陣;
(22)使用基于自注意力機制的Transformer層,獲得每個詞經過編碼器網絡的最頂層編碼表示。
作為知識增強的非自回歸神經機器翻譯方法的優選方案,步驟(3)包括:
(31)預定義表示不同目標語言的詞序列,使用詞對齊模型構建源語言詞序列和目標語言之間的對應關系;
(32)根據源語言詞序列和目標語言之間的對應關系,將源語言對應目標語言的token數目作為繁衍率序列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司,未經云知聲智能科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210243650.3/2.html,轉載請聲明來源鉆瓜專利網。





