[發明專利]一種結合Bert語言模型和細粒度壓縮的漢蒙翻譯方法在審
| 申請號: | 202011393610.4 | 申請日: | 2020-12-03 |
| 公開(公告)號: | CN112395891A | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 蘇依拉;張妍彤;王涵;程永坤;仁慶道爾吉;石寶 | 申請(專利權)人: | 內蒙古工業大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/126;G06F40/289;G06F40/30 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 010080 內蒙古自治區呼*** | 國省代碼: | 內蒙古;15 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 bert 語言 模型 細粒度 壓縮 翻譯 方法 | ||
1.一種結合Bert語言模型和細粒度壓縮的漢蒙翻譯方法,其特征在于,包括:
步驟1,將蒙古文數據和中文數據進行預處理;
步驟2,采用Transformer翻譯模型,所述Transformer翻譯模型的主體是基于自注意力機制構造的編碼器和解碼器;利用已經預訓練好的開源Bert語言模型,將Bert語言模型的輸出直接當作每一層編碼器中Bert注意力模塊的輸入,從而將中文的語義信息融入編碼器,引入更多的語義信息;
步驟3,結合細粒度壓縮方法,通過信息熵對信息表示進行細粒度壓縮,從而達到加速推斷的目的。
2.根據權利要求1所述結合Bert語言模型和細粒度壓縮的漢蒙翻譯方法,其特征在于,所述步驟1中,從蒙古文的語言特點出發,對蒙古文數據進行詞根、詞綴的切分,得到比詞級粒度更小的粒度;對中文數據進行分字以及字粒度切分。
3.根據權利要求1所述結合Bert語言模型和細粒度壓縮的漢蒙翻譯方法,其特征在于,所述步驟2中,Bert語言模型由Transformer模型的Encoder堆疊而成,其目標是利用大規模無標注語料訓練、獲得包含豐富語義信息的表示。
4.根據權利要求1所述結合Bert語言模型和細粒度壓縮的漢蒙翻譯方法,其特征在于,所述步驟2中,首先將源語言句子輸入已經訓練好的開源Bert語言模型,輸出的是包含該句子語義信息的語義表示向量,再將此向量融入編碼器中。
5.根據權利要求1所述結合Bert語言模型和細粒度壓縮的漢蒙翻譯方法,其特征在于,所述Bert語言模型和細粒度壓縮方法融入Transformer翻譯模型。
6.根據權利要求5所述結合Bert語言模型和細粒度壓縮的漢蒙翻譯方法,其特征在于,所述步驟3中,將信息熵作為不同層的注意力權重所包含的信息量大小的衡量指標,通過細粒度壓縮對解碼器中每層注意力的查詢表示Q和鍵表示K進行信息壓縮,從而在譯文質量不發生明顯改變的情況下提升模型的推斷速度。
7.根據權利要求6所述結合Bert語言模型和細粒度壓縮的漢蒙翻譯方法,其特征在于,對于一個隨機變量X,信息熵的計算公式如下:
其中,E()是信息熵,P(·)為變量X的概率質量函數,G(·)表示所含信息量,xi是第i個事件;
第d個序列的概率質量函數表為:
其中,P(Ct)是概率質量函數,Ct代表t時刻句子序列在注意力操作中當前候選語言片段被選中的事件,fq和fk分別為注意力子層的輸入,dk為壓縮前查詢表示Q和鍵表示K的維度,通過維度變換矩陣Wq和Wk得到Transformer翻譯模型注意力層的查詢表示Q和鍵表示K,直接以信息熵的均值作為模型某一層的權重信息量的衡量;
最終得到細粒度表示維度如下:
其中,表示細粒度表示維度,B(E)表示細粒度表示維度函數,λ為映射比例的下界,用來表示空間的壓縮程度;E表示每一層的信息量,Emin和Emax為所有層中信息量的最小值和最大值,Emax計算公式如下:
Emax=ln(1/dk)
公式中dk為壓縮前查詢表示Q和鍵表示K的維度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于內蒙古工業大學,未經內蒙古工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011393610.4/1.html,轉載請聲明來源鉆瓜專利網。





