[發明專利]一種基于龍格-庫塔高階表示的翻譯方法在審
| 申請號: | 202210143667.1 | 申請日: | 2022-02-17 |
| 公開(公告)號: | CN114528857A | 公開(公告)日: | 2022-05-24 |
| 發明(設計)人: | 杜權;田豐寧;高博 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 庫塔高階 表示 翻譯 方法 | ||
本發明公開一種基于龍格?庫塔高階表示的翻譯方法,步驟為:將預處理后的源語言輸入翻譯模型的編碼器端,確立殘差連接與常微分方程數值求解器之間的隱含聯系;引入高階的龍格?庫塔方法進行網絡的結構設計,利用2階龍格?庫塔以及4階龍格?庫塔方法來重新設計Transformer結構;將龍格?庫塔中間表示的系數調整為1;伴隨網絡整體參數的更新自適應的調整不同中間項的權重;利用高階方法得到的不同時間步的中間狀態通過自動學習獲得每一個中間表示所對應的系數,得到更精確的層表示,實現基于龍格?庫塔高階表示的翻譯方法。本發明方法在不同模型容量下均取得了顯著的性能提升,在稀缺資源語種與富資源語言任務上取得了一致性的性能改善。
技術領域
本發明涉及一種機器語言翻譯技術,具體為一種基于龍格-庫塔高階表示的翻譯方法。
背景技術
機器翻譯是指將一種語言映射到另外一種語言的過程。這種依托于海量文本數據訓練得到的機器翻譯模型極大程度上緩解了人工翻譯的壓力。伴隨著機器翻譯技術的迭代,從最初的基于規則的機器翻譯、到21世紀初的基于統計算法的機器翻譯,再到目前基于神經網絡的機器翻譯,機器翻譯的準確率越來越高。目前,基于自注意力機制的Transformer模型已經達到能夠媲美人類的翻譯準確度,其翻譯流暢度對比基于統計的機器翻譯模型有了顯著的改善。這也激發了結合機器翻譯與人工翻譯的輔助式翻譯行業的發展。
目前基于自注意力機制的Transformer模型由于其高度并行的計算能力與性能優勢,在很多機器翻譯任務上取得了最佳性能,是當今最主流的神經機器翻譯框架。其仍然采用編碼器-解碼器結構,編碼器和解碼器分別由多個相同的塊堆疊而成,不同塊之間采用獨立的參數,進而保證網絡的整體泛化能力。其中編碼器包含注意力子層和前饋神經網絡子層,同時為了訓練的穩定性,層與層之間采用殘差連接和層正則化機制。而解碼器相比于編碼器多引入了一個編碼器-解碼器注意力網絡,用于捕獲源語言與目標語言之間的對齊關系。
神經網絡并不是一個嶄新的技術,早在上世紀50年代就有人提出了類似的構想,只不過受到當時計算資源的限制無法充分體現其優勢。然而伴隨著計算能力不斷增強,以及大數據時代下海量數據的易于獲取,基于神經網絡的應用不斷成為人工智能行業的核心技術,并取得了令人矚目的成績。然而基于神經網絡的機器翻譯模型的翻譯性能不僅依賴于網絡架構設計,同樣與容量密切相關。容量,廣義上來講指代神經網絡中神經元的數量,具體來說是模型的參數量。常見的增加模型容量的方式為增大模型寬度,例如Transformer-Big模型;亦或是網絡堆疊的深度,如Transformer-Deep模型。近年來,深層Transformer模型在機器翻譯,語言建模,文本摘要等自然語言處理任務上已經成為主流的基線模型,如何進一步提高深層Transformer的性能成為了討論廣泛的研究熱點。目前為了使深層Transformer模型能夠正常訓練需要對模型結構進行調整,即將編碼層和解碼層中層正則化的位置由每一個子層輸出位置調整為子層輸入位置,并在編碼端和解碼端的輸出位置增加額外的層正則化操作,稱之為Pre-Norm范式。
殘差連接最早追溯到圖像處理領域的ResNet網絡結構,通過跨層連接的方式成功訓練超過100層的卷積神經網絡,在當時的ImageNet任務上取得了第一名的優秀成績。該方法的提出激發了后人的研究興趣,讓研究人員意識到利用多層堆疊進行逐層的特征提取是一種提高分類準確的可行技術手段。后人針對殘差網絡的解釋性也進行了廣泛的討論。從數學上來看,殘差連接的計算方式如下:
yt+1=yt+F(yt,θt)
其中yt代表第t層網絡輸入,F(·)代表特征提取函數,可以使卷積網絡,也可以是自注意力網絡或前饋神經網絡。形式上來看第t+1層的輸入不僅僅依賴于上一層的特征提取向量F(yt,θt),同時也利用了yt的信息。
一些研究人員指出通過對上述公式進行推導可以得到如下公式:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210143667.1/2.html,轉載請聲明來源鉆瓜專利網。





