[發明專利]一種基于自監督的機器翻譯譯文自動優化的方法和系統有效
| 申請號: | 202010294829.2 | 申請日: | 2020-04-15 |
| 公開(公告)號: | CN111597778B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 楊沐昀;徐冰;王佳麒;趙鐵軍;朱聰慧;曹海龍;趙恩博;唐煜 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/232;G06F40/58 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 劉景祥 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 機器翻譯 譯文 自動 優化 方法 系統 | ||
1.一種基于自監督的機器翻譯譯文自動優化的方法,其特征在于,所述方法包括以下步驟:
步驟一、使用大規模平行語料對模型進行訓練,使模型學習替換操作;
步驟二、使用人工構造的偽數據對模型進行訓練,使模型學習插入操作,得到訓練好的模型;
步驟三、使用訓練好的模型對待優化的譯文中的每個詞和詞間空隙進行候選詞預測,完成替換和插入的后編輯操作,
在步驟一中,包括以下步驟:
步驟一一、使用編碼器對源語言句子S進行編碼;
首先對于編碼器,輸入為源語言句子,是一個大小為的向量,其中T表示序列長度,V表示源語言詞表大小,該向量經過詞向量編碼層Word?Embedding,即與一個大小為的參數矩陣相乘,得到大小為的向量,然后與位置向量PositionEmbedding進行相加,輸入到編碼器中,
進入編碼器的第一層,首先進行多頭自注意力計算,注意力機制可以抽象為K、V、Q,即key、value、query三個向量的計算,在自注意力機制里,這三個向量相等,這里使用點乘注意力機制dot-product?attention,公式如下,
多頭的注意力機制是將輸入的向量分為維度更小的向量,為8個頭,即存在8組(Q,?K,V),每組內計算注意力,得到八個輸出,再拼接在一起,得到模塊輸出,
公式如下,其中,,,,其中,,h=8,
得到自注意力層的輸出后,進行殘差連接residual?connection和層歸一化layernormalization,然后輸入編碼器的第二部分前饋神經網,經過兩次線性變換,中間使用Relu作為激活函數,從而得到前饋神經網的輸出,再次進行殘差連接和層歸一化,并將輸出作為編碼器下一層的輸入,經過編碼器的所有層之后,得到編碼器的輸出;
步驟一二、使用正向反向兩個解碼器對目標端句子Ts進行編碼,將兩個解碼器的輸出進行移位拼接,將兩個解碼器的輸入詞向量進行移位拼接,將兩次移位拼接的結果進行拼接,得到特征向量;
對于解碼器,輸入為目標端句子,其計算過程與編碼器基本相同,不同的是在自注意力層和前饋神經網絡中間添加了一個源端注意力層,與自注意力層不同,源端注意力層的K和V為編碼器的輸出,Q為解碼器中自注意力層的輸出,經過多層的計算,得到解碼器的輸出,
訓練過程中,編碼器對源語言句子進行編碼,正向反向兩個解碼器對目標端句子進行編碼,即正向的解碼器輸入正序的目標端句子,反向的解碼器輸入反序的目標端句子,經過如上的計算,得到兩個解碼器的輸出,每個輸出的大小為,將兩個解碼器的輸出的最后一個位置的向量刪除,得到兩個大小為的向量,再將這兩個向量進行移位拼接,得到大小為的向量,為了使模型獲取到原始詞向量的信息,將兩個編碼器的輸入也進行如上的移位拼接操作,得到大小為的向量,最后將兩次移位拼接的向量進行拼接,得到大小為的向量,作為每個詞的特征向量使用,
對于第一階段訓練,使用特征向量與大小為的輸出權重矩陣相乘,得到大小為的向量,進行softmax計算,得到每個位置在詞表上的概率分布,并與實際的詞的分布進行交叉熵損失計算,對于第二階段訓練,由于要對詞之間的空隙進行預測,對于每個空隙,使用其左右兩個詞的向量拼接作為表示向量,長度為N的句子,共有N+1個詞間空隙,包括句子起始和結束位置,故得到的詞間空隙的向量大小為,與大小為的輸出權重矩陣相乘,得到大小為的向量,進行softmax函數計算,得到其在詞表上的概率分布,與真實的標簽分布計算交叉熵損失,
在預測階段,輸入為雙語句對(S,M),其中S表示源語言句子,M表示利用某個機器翻譯模型得到的待后編輯的機器譯文,與訓練時相似,使用編碼器對S進行編碼,使用正反向兩個解碼器對M進行編碼,拿到兩個解碼器的輸出進行移位拼接,對M中的每個詞和詞間空隙進行預測,即進行softmax函數計算,得到詞表上的概率分布,概率最大的那個詞即為預測詞,如果預測的詞與M中的詞不一致,則認為該位置的詞錯誤,需要進行后編輯操作,并將該位置的詞替換為模型預測的詞;如果對詞間空隙的預測不是標識符blank,則表示該位置應插入一個詞;
步驟一三、使用特征向量對目標端的每個詞進行預測,使用預測的結果與實際的輸入計算損失,進行誤差回傳,訓練網絡參數;
在步驟二中,包括以下步驟:
步驟二一、構造偽數據:隨機刪除句子中的詞,對句子中詞之間的空隙進行標注,假設經過隨機刪除后的句子長度為N,則空隙包括句子起始位置和每個詞后的位置共N+1個,針對某個空隙,若其對應某一被刪除的詞,則空隙標簽為該詞,否則為標識符blank表示空;
步驟二二、使用偽數據進行模型訓練,其中編碼器對源語言句子S進行編碼,正向反向兩個解碼器對目標端句子Ts進行編碼,將正向反向兩個解碼器的輸出進行移位拼接,將正向反向兩個解碼器的輸入詞向量進行移位拼接,將兩次移位拼接的結果進行拼接,作為每個詞的向量表示,而詞間空隙的表示則由該空隙兩端詞的表示拼接而成,由此得到每個空隙的特征向量;
步驟二三、使用特征向量對每個詞間空隙進行預測,使用預測的結果與實際的輸入計算損失,進行誤差回傳,訓練網絡參數;
在步驟三中,包括以下步驟:
步驟三一、使用編碼器對源語言句子S進行編碼;
步驟三二、使用正向反向兩個解碼器對目標端句子Ts進行編碼,將兩個解碼器的輸出進行移位拼接,將兩個解碼器的輸入詞向量進行一位拼接,將兩次移位拼接的結果進行拼接,得到特征向量;
步驟三三、使用特征向量對機器譯文中每個詞和詞間空隙進行預測,完成插入和替換的后編輯操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010294829.2/1.html,轉載請聲明來源鉆瓜專利網。





