[發(fā)明專利]一種基于動態(tài)配置解碼的神經機器翻譯方法有效
| 申請?zhí)枺?/td> | 201910095193.6 | 申請日: | 2019-01-31 |
| 公開(公告)號: | CN109933808B | 公開(公告)日: | 2022-11-22 |
| 發(fā)明(設計)人: | 王強;李炎洋 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/51;G06N3/04;G06N3/08 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 動態(tài) 配置 解碼 神經 機器翻譯 方法 | ||
1.一種基于動態(tài)配置解碼的神經機器翻譯方法,其特征在于,包括如下步驟:
步驟1:在自注意力機制的Transformer模型的編碼器和解碼器之間增加決策模型,構成改進的自注意力機制模型,所述決策模型基于卷積神經網絡建立;
步驟2:輸入雙語句子級平行數據,分別對源語和目標語進行分詞處理,獲得分詞后的雙語平行句對,對改進的自注意力機制模型的編碼器和解碼器進行訓練;
步驟3:用訓練好的編碼器對分詞后的雙語平行句對的源語句子按時序進行編碼,獲取隱藏層上每個時序的狀態(tài),即每個時序下不同層的編碼信息;
步驟4:把獲得的編碼信息作為輸入送入決策模型,決策模型對編碼信息進行卷積、池化和歸一化處理,輸出相應的解碼配置;
步驟5:根據決策模型輸出的解碼配置使用已經訓練好的解碼器進行解碼,并對選取的解碼配置進行打分;
步驟6:根據評價標準給出的分數,采用增強學習的方法來改善決策模型,獲得訓練好的決策模型;
步驟7:向改進的自注意力機制的模型的編碼器輸入源語句,將獲得的編碼信息送入決策模型,解碼器根據決策模型輸出的解碼配置進行翻譯。
2.如權利要求1所述的基于動態(tài)配置解碼的神經機器翻譯方法,其特征在于,步驟2中輸入的雙語句子級平行數據為雙語互譯的句對集合,每個句對由源語句子和目標語句子組成。
3.如權利要求1所述的基于動態(tài)配置解碼的神經機器翻譯方法,其特征在于,步驟2中采用極大似然方法對改進的自注意力機制模型的編碼器和解碼器進行訓練。
4.如權利要求1所述的基于動態(tài)配置解碼的神經機器翻譯方法,其特征在于,所述步驟3具體為:
給定一個源語句,編碼器采用N個非線性變換層進行編碼,最終獲得如下編碼信息:
其中,N是編碼器包含的非線性變換層的層數,T是輸入源語句的長度,H的每個元素是一個長度為C的詞向量。
5.如權利要求1所述的基于動態(tài)配置解碼的神經機器翻譯方法,其特征在于,所述步驟4具體為:
步驟4.1:對輸入的編碼信息H進行卷積操作;
步驟4.2:對卷積的輸出進行池化操作;
步驟4.3:重復多次卷積和池化操作,輸出三維張量其中T1T,N1N,使用max-over-time pooling方法在三維張量U的T1維度進行降維處理,獲得二維矩陣
步驟4.4:重構U1為一維向量其中L=N1×C1,然后將U2輸入到全連接層處理,進行如下計算:
Z=W2·f(W1·U2+b1)+b2
其中W1是形狀為(D,L)的實數矩陣,b1是長度為D的實數向量,W2是形狀為(O,D)的實數矩陣,b2是長度為O的實數向量,Z是長度為O的實數向量,同時O也是所有可選配置的數目,f是非線性激活函數;
步驟4.5:將Z代入softmax函數,獲得長度為O的實數向量P,P的每個元素代表待挑選的對應配置的概率,選擇概率最高的配置作為解碼配置輸出。
6.如權利要求1所述的基于動態(tài)配置解碼的神經機器翻譯方法,其特征在于,所述步驟5具體為:
步驟5.1:采用束搜索的方法來進行解碼;
步驟5.2:采用BLEU評價指標對翻譯結果進行打分。
7.如權利要求1所述的基于動態(tài)配置解碼的神經機器翻譯方法,其特征在于,所述步驟6具體采用策略梯度法或Q學習法來改善決策模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910095193.6/1.html,轉載請聲明來源鉆瓜專利網。





