[發明專利]一種基于協同訓練的半監督蒙漢神經機器翻譯方法有效
| 申請號: | 202010110878.6 | 申請日: | 2020-02-24 |
| 公開(公告)號: | CN111414770B | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 仁慶道爾吉;文麗霞;蘇依拉;劉永超;龐蕊 | 申請(專利權)人: | 內蒙古工業大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/08 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 010080 內蒙古自治區呼*** | 國省代碼: | 內蒙古;15 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 協同 訓練 監督 神經 機器翻譯 方法 | ||
目前,解碼器?編碼器結構常用于神經機器翻譯中,在平行語料充足的條件下獲得了不錯的效果。但對于蒙語這種小語種語言,蒙漢平行語料資源有限且極難獲得,因此本發明提供了一種基于協同訓練的半監督蒙漢神經機器翻譯方法,利用半監督的分類生成對抗網絡構建了三個翻譯模型:蒙漢翻譯模型M?mo?ch、英漢翻譯模型M?en?ch、韓漢翻譯模型M?ko?ch,并使用這三個翻譯模型對多源端相互平行語料蒙英韓進行到目標端即漢語的標記,通過用漢語單語訓練的語言模型LM?ch選出質量最好的標記語料用來擴充原有語料庫,并重新訓練出更好的翻譯模型。本發明將協同訓練和半監督的分類生成對抗網絡結合并運用在蒙漢神經機器翻譯中,提高了蒙漢神經機器翻譯模型的質量。
技術領域
本發明屬于人工智能技術領域,涉及機器翻譯,特別涉及一種基于協同訓練的半監督蒙漢神經機器翻譯方法。
背景技術
機器翻譯(Machine Translation,MT)是指利用計算機來自動地將文字從一種自然語言(源語言)轉化成具有完全相同含義的另一種自然語言(目標語言)的過程。
近年來,雖然神經機器翻譯已經逐漸取代傳統的統計機器翻譯,但翻譯系統性能的好壞高度依賴于平行語料庫的質量、規模和領域覆蓋度等。但是,像蒙語這種小語種語言,由于其缺乏高質量、大規模、廣覆蓋率的蒙漢雙語平行語料,使得神經機器翻譯在蒙漢翻譯模型中表現不佳,無法獲得質量較好的翻譯結果。
發明內容
為了克服上述現有技術的缺點,本發明的目的在于提供一種基于協同訓練的半監督蒙漢神經機器翻譯方法,利用已有多種平行語料訓練出來的模型,對多源端相互平行語料進行到目標端的標記,再利用高質量的標記語料進行語料庫擴充并利用半監督的分類生成對抗網絡重新訓練出更好的翻譯模型。
為了實現上述目的,本發明采用的技術方案是:
一種基于協同訓練的半監督蒙漢神經機器翻譯方法,采用協同訓練方法和半監督的分類生成對抗網絡相結合的方法來訓練翻譯模型,基本過程如下:
首先,采用半監督的分類生成對抗網絡的方法對已有的蒙漢、英漢和韓漢平行語料分別訓練出三個翻譯模型:蒙漢翻譯模型M-mo-ch、英漢翻譯模型M-en-ch和韓漢翻譯模型M-ko-ch;
其次,基于協同訓練的思想從蒙英韓多源端相互平行語料中抽取蒙英韓三語對齊句子,將其分別作為蒙漢翻譯模型M-mo-ch、英漢翻譯模型M-en-ch和韓漢翻譯模型M-ko-ch的輸入,從而分別輸出三個漢語句子;
最后,利用漢語單語語料訓練一個語言模型LM-ch,通過語言模型LM-ch評估三個翻譯模型輸出譯文的好壞,選擇質量最好的漢語譯文分別與各翻譯模型的輸入語句組成新的平行語料,并添加至原來的平行語料庫中,繼續訓練得到新的蒙漢翻譯模型M-mo-ch、英漢翻譯模型M-en-ch和韓漢翻譯模型M-ko-ch,直到蒙漢翻譯模型M-mo-ch的BLEU值達到峰值為止。
所述協同訓練方法就是在原有平行語料稀缺的情況下,通過合理利用已有單語語料逐步對原有語料庫進行擴充的一種方法,在本發明中利用蒙漢(mo-ch)、英漢(en-ch)和韓漢(ko-ch)平行語料分別訓練出初始的蒙漢翻譯模型M-mo-ch、英漢翻譯模型M-en-ch、韓漢翻譯模型M-ko-ch,并使用這三個翻譯模型對多源端相互平行語料蒙英韓(mo-en-ko)進行到目標端即漢語(ch)的標記,選出質量最好的標記語料用來擴充原有語料庫,并重新訓練出更好的翻譯模型。所述半監督生成對抗網絡由生成器G和判別器D組成,其中判別器D具有細致分類功能,通過為每個樣本x分配標簽y來將數據分成K類,從而學習一個判別器D,但不是和傳統GAN一樣僅僅學習一個二元判別函數,而是在基于二元判斷的基礎上通過softmax函數給出x屬于K類之一即第k類的概率:
其中Dk(x)表示判別器D將樣本x判定為第k類的概率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于內蒙古工業大學,未經內蒙古工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010110878.6/2.html,轉載請聲明來源鉆瓜專利網。





