[發明專利]用于小型移動設備的深層神經機器翻譯模型的壓縮方法有效
| 申請號: | 202011212808.8 | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112257469B | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 杜權 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/0495;G06N3/082 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 小型 移動 設備 深層 神經 機器翻譯 模型 壓縮 方法 | ||
本發明公開一種用于小型移動設備的深層神經機器翻譯模型的壓縮方法,步驟為:構建雙語平行句對并轉換為句子序列作為模型的輸入;構建基于深層Transformer模型;使用構造的雙語平行句對訓練引入分組擾動策略的深層Transformer模型至收斂,作為教師模型;對教師模型進行采樣,重組構建一個新的淺層Transformer模型作為壓縮之后的中間子模型;使用教師模型對雙語平行訓練數據中的源語進行解碼翻譯,得到知識精煉數據;使用知識精煉數據微調從教師模型中采樣得到的子模型至模型收斂作為最終結果用于小型移動設備。本發明方法進一步提高子模型的性能,在幾乎不損失性能的情況下將編碼端層數壓縮至教師模型的1/8。
技術領域
本發明涉及一種深層翻譯模型壓縮技術,具體為用于小型移動設備的深層神經機器翻譯模型的壓縮方法。
背景技術
從廣義上講,翻譯是指把一個事物轉換成另一個事物的過程,自然語言的翻譯則是指人類語言之間的轉換,將一種語言轉換為意思相同的另一種語言。一直以來,文字的翻譯往往是由人工完成,而由計算機進行自動翻譯的過程則稱為機器翻譯。盡管人工翻譯準確率更高,但是在面臨海量數據的瀏覽型任務翻譯時則需要耗費大量的人力物力,此時機器翻譯更具優勢,使用機器翻譯可能僅需要幾小時或幾分鐘便可以完成,而且隨著機器翻譯技術的發展,機器翻譯的準確度已經達到了與人工翻譯可比的水平。
自20世紀40年代提出至今,機器翻譯已經經歷了近70年的發展,發展歷史大致可以分為三個階段:基于規則的機器翻譯、基于統計的機器翻譯和基于神經網絡的機器翻譯。神經機器翻譯的概念出現在2013-2014年間,當時機器翻譯領域的主流方法仍然是統計機器翻譯。不過,有人也意識到了神經機器翻譯在表示學習等方面的優勢。對包括機器翻譯在內的序列到序列問題進行了廣泛而深入的研究,注意力機制等新的模型不斷被推出。這使得神經機器翻譯系統在翻譯品質上逐漸體現出優勢,神經機器翻譯的研究吸引了更多的科研機構和企業的投入,神經機器翻譯系統的翻譯品質得到進一步提升。
目前基于自注意力機制的Transformer模型由于其高度并行性和強大的性能,在很多機器翻譯任務上取得了最佳性能,是當今最主流的神經機器翻譯框架。其采用編碼-解碼結構,編碼端和解碼端分別有多層堆疊的編碼層和解碼層組成,其中編碼層包含注意力子層和前饋神經網絡子層,在每層后應用了層正則化和殘差連接,解碼層相對于編碼層多了一個編碼解碼注意力子層,用于學習雙語之間的對齊關系并應用了編碼層相同的層正則化操作和殘差連接。
隨著計算機算力和數據量的增加,在實際應用中對機器翻譯質量的要求也越來越高。在傳統機器學習的觀點中,神經網絡的性能不僅依賴于架構設計,同樣與容量密切相關。常見的增加模型容量的方式為增加模型寬度或深度,這里主要研究的對象為深層網絡。在Transformer架構下的深層網絡是指通過堆疊更多的編碼層來加深網絡的深度,同時為了使深層Transformer模型能夠正常訓練需要對模型結構進行調整,即將編碼層和解碼層中層正則化的位置由每一個子層輸出位置調整為子層輸入位置,并在編碼端和解碼端的輸出位置增加額外的層正則化操作。
然而隨著模型容量的增加,模型所需要的存儲空間也會增加,限制了其在資源受限的小設備上部署。同時模型增大也會消耗更多的計算資源,影響響應速度。因此如何將一個性能強大的深層神經機器翻譯模型壓縮為一個存儲更小,響應速度更快的模型是十分重要的。
發明內容
針對深層神經機器翻譯系統具有強大的性能,但同時由于其對計算資源和存儲資源的消耗巨大,在資源受限的小設備難以部署,響應時間過長的問題,本發明提出一種用于小型移動設備的深層神經機器翻譯模型的壓縮方法,可以在幾乎不影響性能的情況下,將編碼端層數壓縮至1/8,減少了模型存儲空間,提高了模型的推斷速度。
為解決上述技術問題,本發明采用的技術方案是:
本發明提供一種用于小型移動設備的深層神經機器翻譯模型的壓縮方法,包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011212808.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多語言神經機器翻譯性能提升方法
- 下一篇:一種方便對接調整的管道補償器





