[發明專利]一種結合Bert語言模型和細粒度壓縮的漢蒙翻譯方法在審
| 申請號: | 202011393610.4 | 申請日: | 2020-12-03 |
| 公開(公告)號: | CN112395891A | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 蘇依拉;張妍彤;王涵;程永坤;仁慶道爾吉;石寶 | 申請(專利權)人: | 內蒙古工業大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/126;G06F40/289;G06F40/30 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 010080 內蒙古自治區呼*** | 國省代碼: | 內蒙古;15 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 bert 語言 模型 細粒度 壓縮 翻譯 方法 | ||
本發明為解決目前漢蒙機器翻譯譯文質量低、翻譯效果不理想問題,提出了一種結合Bert語言模型和細粒度壓縮的漢蒙翻譯方法,首先,本發明從蒙古文的語言特點出發,將蒙古文數據進行詞根、詞綴的切分,將中文進行字粒度切分。其次,本發明采用當前比較先進的谷歌提供的已經預訓練好的開源Bert語言模型,將Bert語言模型的輸出直接送入每一層編碼器中的Bert注意力模塊中,這樣可以有效把中文的語義信息融入編碼器。最后,本發明結合細粒度壓縮的方法,通過信息熵對信息表示進行細粒度壓縮,從而達到模型加速推斷的目的。本發明在進行蒙漢翻譯的過程中,通過使用Bert語言模型引入更多的語義信息,使翻譯準確度更高;通過使用細粒度壓縮的方法使得模型能夠有更快的訓練速度。
技術領域
本發明屬于機器翻譯技術領域,特別涉及一種結合Bert語言模型和細粒度壓縮的漢蒙翻譯方法。
背景技術
機器翻譯是借助計算機自動地將一種自然語言(源語言)轉化為含義相同的另外一種自然語言(目標語言)的過程。它高度依賴平行語料數據的規模以及質量。隨著國際間交流日趨頻繁,機器翻譯作為一種重要的技術,在人們的生活中扮演著重要的角色。其發展歷程從早期的詞典匹配、規則翻譯,到基于語料庫的統計機器翻譯,再到當前主流的神經網絡機器翻譯(NMT)。然而,目前可使用的蒙漢平行語料資源規模有限。
蒙古語是一種黏著語,屬于阿爾泰語系,本發明研究的是傳統蒙古文到中文的翻譯。蒙古文單詞以詞根+詞綴的形式呈現,詞綴分為兩類:一類是派生詞綴,它和詞根結合形成新的含義,一個詞根后面結合一個或多個派生詞綴形成詞干;另一類結合詞干用于表達語法含義。蒙古文詞形變化非常復雜。它的語序與中文有很大的差別。
語言模型就是根據上下文去預測下一個詞是什么,這不需要人工標注語料,所以它能夠從無限制的大規模單語語料中,學習到豐富的語義知識。因此對于像蒙古語這樣語料資源有限的語種,將語言模型融入到翻譯模型中能夠提高翻譯質量。Bert語言模型是當前熱門的選擇之一,它的核心思想是:通過預訓練為無標記的文本提供基于上下文信息的雙向特征表征。Bert語言模型具備廣泛的通用性。
目前,雖然已經有一些針對低資源語言的機器翻譯技術被提出,但仍舊存在平行語料庫匱乏的問題,同時大量注意力操作的使用也導致模型整體的推斷效率相對較低從而導致翻譯譯文的質量并不理想。
發明內容
為了克服上述現有技術的缺點,解決目前漢蒙機器翻譯譯文質量低、翻譯效果不理想問題,本發明的目的在于提供一種結合Bert語言模型和細粒度壓縮的漢蒙翻譯方法,可提高蒙漢翻譯譯文質量,加速模型推斷速度。
為了實現上述目的,本發明采用的技術方案是:
一種結合Bert語言模型和細粒度壓縮的漢蒙翻譯方法,包括:
步驟1,將蒙古文數據和中文數據進行預處理;
步驟2,采用Transformer翻譯模型,所述Transformer翻譯模型的主體是基于自注意力機制構造的編碼器和解碼器;利用已經預訓練好的開源Bert語言模型,將Bert語言模型的輸出直接當作每一層編碼器中Bert注意力模塊的輸入,從而將中文的語義信息融入編碼器,引入更多的語義信息;
步驟3,結合細粒度壓縮方法,通過信息熵對信息表示進行細粒度壓縮,從而達到加速推斷的目的。
所述步驟1中,從蒙古文的語言特點出發,對蒙古文數據進行詞根、詞綴的切分,得到比詞級粒度更小的粒度;對中文數據進行分字以及字粒度切分。
所述步驟2中,Bert語言模型由Transformer模型的Encoder堆疊而成,其目標是利用大規模無標注語料訓練、獲得包含豐富語義信息的表示,為谷歌提供的開源模型。
所述步驟2中,首先將源語言句子輸入已經訓練好的開源Bert語言模型,輸出的是包含該句子語義信息的語義表示向量,再將此向量融入編碼器中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于內蒙古工業大學,未經內蒙古工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011393610.4/2.html,轉載請聲明來源鉆瓜專利網。





