[發明專利]基于自注意力機制的多領域神經機器翻譯方法有效
| 申請號: | 201910344013.3 | 申請日: | 2019-04-22 |
| 公開(公告)號: | CN110059323B | 公開(公告)日: | 2023-07-11 |
| 發明(設計)人: | 熊德意;張詩奇 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/47;G06N3/045;G06N3/0455;G06N3/0895 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 楊慧林 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 機制 領域 神經 機器翻譯 方法 | ||
1.一種基于自注意力機制的多領域神經機器翻譯方法,其特征在于,包括:
在注意力機制中,每個單詞有著詞的語義向量和一個領域向量,領域向量是這個詞來自的領域的向量化表示,同時領域向量也被用作領域感知的自注意力機制的鍵和值;
使用Transformer對輸入序列的領域信息進行編碼,并使用這些被編碼的領域信息對特定于領域的目標端進行解碼;
其中,對Transformer進行了兩項重要的改變;第一個改變是基于領域感知的自注意力機制,其中領域表示被添加到原始的自注意力機制的鍵和值向量中,基于領域感知的自注意力機制函數的輸出是融入了領域信息的值的加權和;注意力機制的權重是查詢和領域感知的鍵的相關程度;基于領域感知的自注意力機制可以用在編碼器、解碼器或同時用在編碼端和解碼端的自注意力層;第二個變化是添加一個領域表示學習模塊來學習領域向量;給定一個n個元素的輸入序列x=(x1,...,xn),其中xi(∈Rdx),維度是dx,單頭自注意力機制層的輸出是輸入的線性轉換的加權和;
假設序列中的每個元素都有一個領域表示;因此,基于領域感知的自注意力機制中的鍵和值向量是原始向量和領域表示的組合;讓與x相同長度的序列z=(z1,…,zn)成為對應于x的領域表示;維度為dz的zi(∈Rdz)是元素xi對應的領域表示;如果不添加額外的線性變換,則x和z的維度可以相同(即,dz=dx);通過強制所有元素具有相同的領域表示,即z1=z2=…=zn,得到句子或文本級別的模型;
領域感知的自注意力機制DSA的輸出元素oi可以如公式(3-1)計算:
直觀地,輸出將包含來自x的語義信息和來自z的領域信息;希望如果在編碼器中使用領域感知的自注意力機制,領域信息可以幫助消除源端單詞的歧義,如果它被用在目標端,領域信息能夠幫助選擇正確的目標詞;
同樣,計算查詢和鍵向量之間的相關度的函數也做了變化,為將領域表示考慮在內,如下所述;
其中,是要學習的轉換矩陣;
領域表示學習:
句子級領域信號監督的領域表示學習:
基于領域感知的自注意力機制的關鍵是學習領域的表示z;提出了句子級領域信號監督的方法來學習領域的表示;
假設有來自訓練集和測試集的句子的領域ID,可以使用這些域ID作為信號來監督領域表示的學習;設N是領域類型的數量;隨機初始化一組向量表示l={l1,...,lN},其中是領域i∈{1,...,l}的向量表示;在訓練階段,如果句子的域ID是i,設置z1=...=zn=li;繼續訓練整個多領域NMT模型,更新領域向量l={l1,...,lN},直到收斂;
基于領域注意力網絡的單詞級別的無監督學習:
初始化一組領域向量m={m1,...,mN},其中N是預定義的領域的數量的超參數;將基于自注意力機制模型中的元素xi的領域表示zi表示為m中N個的領域向量的加權和,而不是將zi指定為m中的某一個領域向量;
為了學習領域混合模型的權重,構建了一個領域注意力網絡,允許每個元素xi與m中的所有領域表示做注意力計算;混合的領域權重通過相似性函數計算的注意力權重得到,其中查詢是來自x的元素,鍵是領域向量;基于點積函數的相似性計算如下;
利用這些權重,計算領域表示zi的公式如(3-5)所示;
其中,是參數矩陣;
加入輔助的損失的引導學習:
引入輔助損失Δ來衡量領域注意力網絡學習的領域表示zi與外部領域模型學習的領域表示之間的不一致;訓練的最終目標是最小化下述損失;
其中λ>0是一個超參數,平衡翻譯似然函數和領域表示間的差異對訓練的影響;
由于輔助的損失僅在訓練階段使用,因此在測試階段不需要外部領域信號的引導;使用分布向量空間模型作為外部模型,并定義Δ為兩個領域表示的交叉熵;將單詞的領域向量的每個維度定義為由tf-idf測量的單詞對特定領域的重要程度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910344013.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種英語翻譯器
- 下一篇:基于依存信息監督的神經網絡機器翻譯方法及裝置





