[發明專利]一種基于隨機殘差算法的深層神經機器翻譯系統有效
| 申請號: | 202010068168.1 | 申請日: | 2020-01-21 |
| 公開(公告)號: | CN111353315B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 劉興宇 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/0455;G06N3/047;G06N3/08 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 隨機 算法 深層 神經 機器翻譯 系統 | ||
1.一種基于隨機殘差算法的深層神經機器翻譯系統,其特征在于包括以下步驟:
1)采用基于自注意力機制的Transformer模型,將層正則化的位置提前,在編碼端的子層中引入隨機殘差連接,構建基于前作Transformer的深層神經機器翻譯系統;
2)對源語和目標語構成的雙語平行句對進行分詞,構建詞表,同時將其轉換為詞向量,用詞向量與位置編碼向量相加得到的向量表示分別作為編碼器和解碼器的輸入;
3)在編碼端,對源語言輸入的信息進行逐層的特征提取,針對編碼層中的每個子層,當信息傳遞至自身時,按照隨機概率跳過該子層的計算,直接進行下一子層的計算;
4)解碼器端的每個解碼層在接收到層輸入后聯合編碼端的輸出進行運算后傳遞給下一層進行信息的抽取,直到得到頂層的輸出;
5)對解碼端的輸出結果進行線性變換映射到目標端詞表空間,使用softmax歸一化操作得到目標語的詞匯分布,通過計算詞匯分布與真實標簽數據間的差異來更新模型參數,實現模型的訓練過程;
6)用訓練好的模型進行翻譯,在推理階段,拋棄編碼端子層隨機殘差機制,使用所有的編碼層子層進行信息的抽取,同時對每個子層中的計算單元結果進行縮放;
前作Transformer是將每個子層中的層正則化放在運算之前,同時使用殘差連接將子層輸入和運算結果相加后作為子層輸出,計算方式如下:
y=x+F(LN(x))
其中x和y分別為輸入和輸出,LN表示層正則化,F表示子層運算單元,對應于Transformer模型中的注意力機制或者前饋神經網絡;
步驟3)為模型的編碼器計算過程,編碼器包含多層結構,其中每一層由自注意力網絡和前饋神經網絡兩個子層構成;跳過子層的概率具體為:
根據當前層在編碼端中的順序,第一層的概率為0,即不對編碼端的第一層執行隨機殘差操作,第l層的隨機殘差概率p=l*α/L,其中L為編碼端的編碼層總數,α是模型自定義的超參數,α越大,對于當前模型執行隨機殘差操作跳過子層的概率越大,同時,編碼端的頂層比底層具有更大的執行隨機殘差操作的概率。
2.按權利要求1所述的基于隨機殘差算法的深層神經機器翻譯系統,其特征在于:步驟3)中,關于編碼層是否跳過子層計算的具體判斷步驟為:
301)在訓練階段,當向量傳入編碼層后,隨機生成一個介于0,1之間的隨機數;
302)若生成的隨機數小于當前層的隨機殘差概率p,則跳過該子層的運算,繼續向下傳遞;
303)若生成的隨機數大于當前層的隨機殘差概率p,則正常進行子層計算。
3.按權利要求1所述的基于隨機殘差算法的深層神經機器翻譯系統,其特征在于:所述步驟6)中推理階段的操作具體方式如下:
y=x+(1-p)*F(LN(x))
其中,x和y分別為子層的輸入和輸出,LN為層正則化操作,F為子層計算單元;在進行推理解碼時,不使用隨機殘差機制跳過子層,輸入向量逐層向頂層傳遞,進行信息抽取,對訓練時通過隨機殘差訓練得到的各種子網絡結構進行聚合,增強模型的性能;同時,對子層中的F函數結果進行縮放,縮放因子為(1-p),其中p為殘差概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010068168.1/1.html,轉載請聲明來源鉆瓜專利網。





