[發明專利]緩解語言對差異沖突的多語言機器翻譯模型的訓練方法有效
| 申請號: | 202011167339.2 | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112329481B | 公開(公告)日: | 2022-07-19 |
| 發明(設計)人: | 蘇勁松;周楚倫;劉鑫;王鴻吉 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58 |
| 代理公司: | 廈門創象知識產權代理有限公司 35232 | 代理人: | 尤懷成 |
| 地址: | 361000 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 緩解 語言 差異 沖突 機器翻譯 模型 訓練 方法 | ||
1.一種緩解語言對差異沖突的多語言機器翻譯模型的訓練方法,其特征在于,包括以下步驟:
獲取訓練語料,其中,所述訓練語料包括多個語言對;
建立多語言機器翻譯模型,并根據所述訓練語料的每個語言對對所述多語言機器翻譯模型進行訓練;
在訓練過程中,計算所述訓練語料中所有語言對對應的導數,并對任意兩個語言對對應的導數進行沖突調整,以獲取調整后的所有語言對對應的導數;
根據所述調整后的所有語言對對應的導數對所述多語言機器翻譯模型參數進行更新,以得到訓練好的多語言機器翻譯模型;
其中,對任意兩個語言對對應的導數進行沖突調整,以獲取調整后的所有語言對對應的導數,包括:
計算任意兩個語言對對應的導數之間的余弦相似度;
根據所述余弦相似度判斷所述任意兩個語言對對應的導數之間是否存在沖突關系;
如果存在沖突關系,則將所述任意兩個語言對對應的導數中的任意一個導數投影到另一個導數的正交平面上,以得到所述任意一個導數投影后的導數,并將所述投影后的導數替代所述任意一個導數,以完成對任意兩個語言對對應的導數的沖突調整;
如果不存在沖突關系,則不進行沖突調整;
其中,根據所述余弦相似度判斷所述任意兩個語言對對應的導數之間是否存在沖突,包括:
如果所述余弦相似度的值為負數,則判斷所述任意兩個語言對對應的導數之間存在沖突關系;
如果所述余弦相似度的值為非負數,則判斷所述任意兩個語言對對應的導數之間不存在沖突關系;
其中,通過以下公式得到所述投影后的導數:
其中,g′l為第l個語言對的導數投影后的導數,gl為第l個語言對的導數,gl′為第l′個語言對的導數;
其中,其特征在于,在訓練過程中還根據任意兩個語言對對應的導數之間的方向相似度和幅度相似度對所述多語言機器翻譯模型參數的學習率進行自適應調整,以便根據所述調整后的學習率和所述調整后的所有語言對對應的導數對所述多語言機器翻譯模型參數進行更新,以得到訓練好的多語言機器翻譯模型。
2.如權利要求1所述的緩解語言對差異沖突的多語言機器翻譯模型的訓練方法,其特征在于,根據任意兩個語言對對應的導數之間的方向相似度和幅度相似度對所述多語言機器翻譯模型參數的學習率進行自適應調整,包括:
獲取所有語言對中的任意兩個語言對對應的導數以計算所述任意兩個語言對對應的導數之間的方向相似度和幅度相似度;
根據任意兩個語言對對應的導數之間的方向相似度和幅度相似度計算任意兩個語言對對應的導數之間的最終相似度,以及根據所有語言對中任意兩個語言對對應的導數的最終相似度計算所有語言對的平均相似度;
根據所述所有語言對的平均相似度對所述多語言機器翻譯模型參數的學習率進行自適應調整。
3.如權利要求2所述的緩解語言對差異沖突的多語言機器翻譯模型的訓練方法,其特征在于,根據以下公式計算所述任意兩個語言對對應的導數之間的方向相似度和幅度相似度:
其中,dsll′為方向相似度,msll′為幅度相似度,gl為第l個語言對的導數,gl′為第l′個語言對的導數,cos_sim(gl,gl′)為第l個語言對的導數和第l′個語言對的導數之間的余弦相似度,||·||2代表L2范數。
4.如權利要求3所述的緩解語言對差異沖突的多語言機器翻譯模型的訓練方法,其特征在于,根據以下公式計算任意兩個語言對對應的導數之間的最終相似度和所有語言對的平均相似度:
其中,sll′為第l個語言對的導數gl和為第l′個語言對的導數gl′之間的最終相似度,siter為所有語言對的第iter個訓練步的平均相似度,總共有L個語言對。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011167339.2/1.html,轉載請聲明來源鉆瓜專利網。





