[發明專利]一種基于龍格-庫塔高階表示的翻譯方法在審
| 申請號: | 202210143667.1 | 申請日: | 2022-02-17 |
| 公開(公告)號: | CN114528857A | 公開(公告)日: | 2022-05-24 |
| 發明(設計)人: | 杜權;田豐寧;高博 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 庫塔高階 表示 翻譯 方法 | ||
1.一種基于龍格-庫塔高階表示的翻譯方法,其特征在于包括以下步驟:
1)將預處理后的源語言輸入翻譯模型的編碼器端,通過詞嵌入層和堆疊的編碼器層編碼為上下文向量;確立殘差連接與常微分方程數值求解器之間的隱含聯系,將每一個單獨的殘差塊看作常微分方程中一階求解方法;
2)引入高階的龍格-庫塔方法進行網絡的結構設計,通過將每一個子層的運算或整個塊的運算看作獨立的求解器,利用2階龍格-庫塔以及4階龍格-庫塔方法來重新設計Transformer結構;
3)在步驟2)的基礎上進一步進行結構完善,將龍格-庫塔中間表示的系數調整為1;
4)在步驟3)的基礎上將龍格-庫塔的中間表示的系數作為可學習的網絡參數,其初始化值設置為1,之后伴隨網絡整體參數的更新自適應的調整不同中間項的權重;
5)在步驟4)的基礎上利用高階方法得到的不同時間步的中間狀態通過自動學習獲得每一個中間表示所對應的系數,得到更精確的層表示,實現基于龍格-庫塔高階表示的翻譯方法。
2.按權利要求1所述的基于龍格-庫塔高階表示的翻譯方法,其特征在于:步驟1)中確立殘差連接與常微分方程數值求解器之間的隱含聯系,通過以下公式實現:
yt+1=yt+G(LN(yt),θt)
其中LN(·)表示正則化方法,G(·)表示自注意力網絡或者前饋神經網絡,上述公式表示Pre-Norm的Transformer中每一子層計算的流程,yt代表當前層的輸入,yt+1代表當前層的輸出;
一階常微分方程表示為:
這里f(y(t),t)定義了與時間獨立的向量,通過重新定義G(LN(yt),θt)函數得到如下表示:
y(t+Δt)=y(t)+Δt·F(y(t),θ(t))
這里,Δt表示時間t的變化,在標準的Transformer網絡中Δt=1;
通過調整Δt的步幅得到:
通過上述兩式建立起Transformer模型與常微分方程之間的聯系。
3.按權利要求1所述的基于龍格-庫塔高階表示的翻譯方法,其特征在于:步驟2)中,利用2階龍格-庫塔方法構造模型為:
F1=F(yt,θt)
F2=F(yt+F1,θt)
這里F1和F2代表模型的第一次中間預測結果以及第二次中間預測結果,不同中間結果的預測計算過程復用相同的網絡參數θt;
利用4階的龍格-庫塔方法構造模型為:
F1=F(yt,θt)
F4=F(yt+F3,θt)
其中F3和F4代表模型的第三次中間預測結果以及第四次中間預測結果。
4.按權利要求1所述的基于龍格-庫塔高階表示的翻譯方法,其特征在于:步驟3)中,將2階方法的系數設為1,其公式為:
yt+1=yt+F(yt,θt)+F(yt+F(yt,θt),θt)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210143667.1/1.html,轉載請聲明來源鉆瓜專利網。





