[發明專利]一種知識增強的非自回歸神經機器翻譯方法及裝置在審
| 申請號: | 202210243650.3 | 申請日: | 2022-03-12 |
| 公開(公告)號: | CN114611488A | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 王亦寧;劉升平;梁家恩 | 申請(專利權)人: | 云知聲智能科技股份有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/284;G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100096 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識 增強 回歸 神經 機器翻譯 方法 裝置 | ||
1.一種知識增強的非自回歸神經機器翻譯方法,其特征在于,包括以下步驟:
(1)將雙語平行語言對進行數據預處理和詞向量編碼;
(2)將源語言的詞向量表示輸入到編碼器網絡中,所述編碼器網絡將源語言文檔信息進行編碼,得到輸入詞序列信息的編碼表示;
(3)使用詞對齊模型構建源語言和目標語言的對應關系,構建繁衍率模型;
(4)構建解碼器模型的輸入和輸出編碼表示;
(5)通過條件隨機場模型建立目標語言詞匯之間的依賴,依次解碼生成最終的翻譯結果。
2.根據權利要求1所述的一種知識增強的非自回歸神經機器翻譯方法,其特征在于,步驟(1)包括:
(11)使用BPE算法將所有訓練語料中句子進行亞詞切分;
(12)預定義表示源語言的亞詞序列,使用預訓練模型得到源語言的詞向量編碼表示;
(13)獲取源語言輸入序列的位置向量編碼;
(14)將所述詞向量編碼與所述位置向量編碼相加,得到源語言的輸入編碼表示。
3.根據權利要求2所述的一種知識增強的非自回歸神經機器翻譯方法,其特征在于,步驟(2)包括:
(21)獲取源語言經過詞向量預處理的詞序列矩陣;
(22)使用基于自注意力機制的Transformer層,獲得每個詞經過編碼器網絡的最頂層編碼表示。
4.根據權利要求3所述的一種知識增強的非自回歸神經機器翻譯方法,其特征在于,步驟(3)包括:
(31)預定義表示不同目標語言的詞序列,使用詞對齊模型構建源語言詞序列和目標語言之間的對應關系;
(32)根據源語言詞序列和目標語言之間的對應關系,將源語言對應目標語言的token數目作為繁衍率序列;
(33)對步驟(22)得到的每個詞經過編碼器網絡的最頂層編碼表示計算softmax,得到繁衍率的概率分布;
(34)選擇最大概率對應的輸出作為編碼器網絡的生成結果;
步驟(33)包括:
(331)將輸出的隱狀態進行一層線性變換;
(332)將一層線性變換得到的結果通過softmax輸出繁衍率中的概率分布。
5.根據權利要求4所述的一種知識增強的非自回歸神經機器翻譯方法,其特征在于,步驟(4)包括:
(41)根據步驟(33)得到的繁衍率結果構建解碼器端的輸入;
(42)獲得解碼器輸入編碼表示;
(43)獲得解碼器的輸出編碼表示。
6.根據權利要求5所述的一種知識增強的非自回歸神經機器翻譯方法,其特征在于,步驟(5)包括:
(51)對解碼器網絡最頂層輸出的隱狀態進行一層線性變換;
(52)將一層線性變換得到的結果通過CRF線性鏈輸出每個時刻的輸出概率分布;
(53)選擇最大概率對應的單詞作為指定時刻的翻譯結果。
7.一種知識增強的非自回歸神經機器翻譯裝置,其特征在于,包括:
第一處理模塊,用于將雙語平行語言對進行數據預處理和詞向量編碼;
第二處理模塊,用于將源語言的詞向量表示輸入到編碼器網絡中,所述編碼器網絡將源語言文檔信息進行編碼,得到輸入詞序列信息的編碼表示;
第三處理模塊,用于使用詞對齊模型構建源語言和目標語言的對應關系,構建繁衍率模型;
第四處理模塊,用于構建解碼器模型的輸入和輸出編碼表示;
第五處理模塊,用于通過條件隨機場模型建立目標語言詞匯之間的依賴,依次解碼生成最終的翻譯結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司,未經云知聲智能科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210243650.3/1.html,轉載請聲明來源鉆瓜專利網。





