[發明專利]用于小型移動設備的深層神經機器翻譯模型的壓縮方法有效
| 申請號: | 202011212808.8 | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112257469B | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 杜權 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/0495;G06N3/082 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 小型 移動 設備 深層 神經 機器翻譯 模型 壓縮 方法 | ||
1.一種用于小型移動設備的深層神經機器翻譯模型的壓縮方法,其特征在于包括以下步驟:
1)處理訓練數據,對其進行清洗、分詞和子詞切分操作,構建雙語平行句對,并將其轉換為用詞嵌入表示的句子序列,句子序列與位置編碼累加后,作為模型的輸入;
2)構建基于深層Transformer模型,引入分組擾動策略,將其編碼層劃分為多組,不同的訓練批次時組內編碼層之間的順序隨機打亂,即具有完全隨機的信息傳遞順序;
3)使用構造的雙語平行句對訓練引入分組擾動策略的深層Transformer模型至收斂,使其作為教師模型;
4)對訓練好的教師模型進行采樣,即從每一個編碼層組中隨機抽取一層,重組構建一個新的淺層Transformer模型作為壓縮之后的中間子模型;
5)使用教師模型對雙語平行訓練數據中的源語進行解碼翻譯,得到由教師模型翻譯的目標語,和真實雙語數據的源語組合構造新的雙語平行句句對,作為知識精煉數據;
6)使用知識精煉數據微調從教師模型中采樣得到的子模型至模型收斂作為最終結果用于小型移動設備。
2.按權利要求1所述的用于小型移動設備的深層神經機器翻譯模型的壓縮方法,其特征在于:步驟2)中構建深層Transformer模型,通過將每一個編碼層和解碼層中的層正則化的位置提前,置于每一個子層的輸入,并在編碼端和解碼端輸出時額外增加層正則化操作,即pre-norm,其公式如下:
si+1=si+sublayer(layer_norm(si))
其中si為當前子層的輸入,si+1為當前子層的輸出,即下一子層的輸入,sublayer為當前子層的計算函數,layer_norm為層正則化函數。
3.按權利要求2所述的用于小型移動設備的深層神經機器翻譯模型的壓縮方法,其特征在于在pre-norm形式下,編碼層的計算流程為:
對于輸入該編碼層的向量進行層正則化操作,歸一化輸入的均值和方差后將其輸入自注意力機制子層,在自注意力機制中,模型計算針對每一個位置的單詞計算該單詞和句子中所有單詞的相關性系數,并對該系數進行歸一化處理,對句子中所有位置的單詞表示進行加權求和得到該位置單詞的進一步的抽象表示;
將上一步得到的抽象表示與進行層正則化操作之前的輸入進行殘差連接;
將殘差連接計算得到的輸出進行層正則化操作后送入前饋神經網絡子層,進行計算,將其結果與自注意力子層的輸出相加后,傳遞給下一個編碼層;
在此基礎上引入分組擾動策略,假設深層Transformer模型共有m層編碼層,最終希望將其壓縮為n層,則將當前深層Transformer模型的編碼層分為n組,每組具有m/n個編碼層。
4.按權利要求2所述的用于小型移動設備的深層神經機器翻譯模型的壓縮方法,其特征在于:步驟4)中,子模型的構建方法為從深層transformer模型中的每一個編碼層組中隨機抽取一層,使用一層代替一個編碼組,共有n組則抽取n個編碼層,與深層模型的解碼端組成子模型。
5.按權利要求1所述的用于小型移動設備的深層神經機器翻譯模型的壓縮方法,其特征在于步驟5)中,知識精煉數據的構建為:
使用已經訓練收斂的深層Transformer翻譯模型作為教師模型,使用其對訓練數據的源語進行推斷翻譯,得到機器翻譯的結果作為目標語;
將目標語與源語重新組合,將其轉變為連續向量表示。
6.按權利要求1所述的用于小型移動設備的深層神經機器翻譯模型的壓縮方法,其特征在于:步驟6)中,對從教師模型中隨機抽層采樣得到的子網絡重置優化器狀態,回調學習率至峰值,以便于模型快速收斂;
使用由教師模型得到的知識精煉數據微調子模型,使其充分學習教師模型中所蘊含的知識,以達到與教師模型相近的性能,最終用于小型移動設備。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011212808.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多語言神經機器翻譯性能提升方法
- 下一篇:一種方便對接調整的管道補償器





