[發明專利]緩解語言對差異沖突的多語言機器翻譯模型的訓練方法有效
| 申請號: | 202011167339.2 | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112329481B | 公開(公告)日: | 2022-07-19 |
| 發明(設計)人: | 蘇勁松;周楚倫;劉鑫;王鴻吉 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58 |
| 代理公司: | 廈門創象知識產權代理有限公司 35232 | 代理人: | 尤懷成 |
| 地址: | 361000 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 緩解 語言 差異 沖突 機器翻譯 模型 訓練 方法 | ||
本發明提出了一種緩解語言對差異沖突的多語言機器翻譯模型的訓練方法,該方法包括:獲取訓練語料,其中,訓練語料包括多個語言對;建立多語言機器翻譯模型,并根據訓練語料的每個語言對對多語言機器翻譯模型進行訓練;在訓練過程中,計算訓練語料中所有語言對對應的導數,并對任意兩個語言對對應的導數進行沖突調整,以獲取調整后的所有語言對對應的導數;根據調整后的所有語言對對應的導數對多語言機器翻譯模型參數進行更新,以得到訓練好的多語言機器翻譯模型;由此,通過對任意兩個語言對對應的導數進行沖突調整,從而減輕了不同語言對的訓練實例對模型參數更新的導數沖突問題,從而提高了多語言機器翻譯模型在多個語言對上的整體效果。
技術領域
本發明涉及機器翻譯技術領域,特別涉及一種緩解語言對差異沖突的多語言機器翻譯模型的訓練方法、一種計算機可讀存儲介質。
背景技術
相關技術中,多語言機器翻譯的目標是構建一個能夠同時進行多個語言對之間翻譯的模型,相比于雙語機器翻譯模型,多語言機器翻譯的主要優勢在于其極大地減輕了實踐場景中因存在眾多不同語言對而需要在線上部署且維護大量雙語翻譯模型的問題;除此以外,多語言機器翻譯模型還使得多語言對之間可以進行遷移學習,其在低資源甚至零資源語言對之間的翻譯效果能很大程度超過僅在單一語言對上訓練的一般雙語翻譯模型;因為多語言翻譯模型需要能在多個語言對之間進行翻譯,而且不同語言的分布有其各自的特點,所以在訓練過程中,來自不同語言對的平行語料對于多語言翻譯模型共享參數的更新存在導數沖突的問題,由于這種導數沖突大大降低了多語言機器翻譯模型在多個語言對上的整體效果。
發明內容
本發明旨在至少在一定程度上解決上述技術中的技術問題之一。為此,本發明的一個目的在于提出一種多語言機器翻譯模型的訓練方法,該方法通過對任意兩個語言對對應的導數進行沖突調整,從而減輕了不同語言對的訓練實例對模型參數更新的導數沖突問題,從而提高了多語言機器翻譯模型在多個語言對上的整體效果。
本發明的第二個目的在于提出一種計算機可讀存儲介質。
為達到上述目的,本發明第一方面實施例提出了一種多語言機器翻譯模型的訓練方法,該方法包括以下步驟:獲取訓練語料,其中,所述訓練語料包括多個語言對;建立多語言機器翻譯模型,并根據所述訓練語料的每個語言對對所述多語言機器翻譯模型進行訓練;在訓練過程中,計算所述訓練語料中所有語言對對應的導數,并對任意兩個語言對對應的導數進行沖突調整,以獲取調整后的所有語言對對應的導數;根據所述調整后的所有語言對對應的導數對所述多語言機器翻譯模型參數進行更新,以得到訓練好的多語言機器翻譯模型。
根據本發明實施例的多語言機器翻譯模型的訓練方法,首先獲取訓練語料,其中,訓練語料包括多個語言對,接著建立多語言機器翻譯模型,并根據訓練語料的每個語言對對多語言機器翻譯模型進行訓練,并且在訓練過程中,計算訓練語料中所有語言對對應的導數,并對任意兩個語言對對應的導數進行沖突調整,以獲取調整后的所有語言對對應的導數,根據調整后的所有語言對對應的導數對多語言機器翻譯模型參數進行更新,以得到訓練好的多語言機器翻譯模型;由此,通過對任意兩個語言對對應的導數進行沖突調整,從而減輕了不同語言對的訓練實例對模型參數更新的導數沖突問題,從而提高了多語言機器翻譯模型在多個語言對上的整體效果。
另外,根據本發明上述實施例提出的多語言機器翻譯模型的訓練方法還可以具有如下附加的技術特征:
可選地,對任意兩個語言對對應的導數進行沖突調整,以獲取調整后的所有語言對對應的導數,包括:計算任意兩個語言對對應的導數之間的余弦相似度;根據所述余弦相似度判斷所述任意兩個語言對對應的導數之間是否存在沖突關系;如果存在沖突關系,則將所述任意兩個語言對對應的導數中的任意一個導數投影到另一個導數的正交平面上,以得到所述任意一個導數投影后的導數,并將所述投影后的導數替代所述任意一個導數,以完成對任意兩個語言對對應的導數的沖突調整;如果不存在沖突關系,則不進行沖突調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011167339.2/2.html,轉載請聲明來源鉆瓜專利網。





