[發明專利]一種基于領域分類的反向翻譯數據構建及訓練方法在審
| 申請號: | 202310386735.1 | 申請日: | 2023-04-12 |
| 公開(公告)號: | CN116306703A | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 史曉東;宋佳欣;陳毅東 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/08;G06F16/35;G06F18/22;G06F18/214;G06F40/216;G06N3/0464;G06N3/0499 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 福建*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 領域 分類 反向 翻譯 數據 構建 訓練 方法 | ||
一種基于領域分類的反向翻譯數據構建及訓練方法,涉及自然語言處理、機器翻譯、數據增強領域,基于原語料訓練雙語模型:使用Transformer神經網絡模型,將雙語原語料分別作為源端?目標端和目標端?源端訓練兩個神經機器翻譯模型;2)基于關鍵詞和主題相似性構建領域單語數據集;3)基于反向翻譯生成領域偽平行數據集:將獲取的領域單語數據集作為源端數據集,使用訓練好的雙語模型進行反向翻譯獲得偽句子對,整理對齊后形成領域偽平行數據集;4)基于領域分類學習的聯合訓練:將偽平行數據集標記為領域語料與通用數據進行聯合訓練。能在獲取高質量的相關領域的知識的同時,有效利用通用領域知識,提高翻譯性能,保證翻譯質量。
技術領域
本發明涉及自然語言處理、機器翻譯、數據增強領域,尤其是涉及一種基于領域分類的反向翻譯數據構建及訓練方法。
背景技術
近年來,神經機器翻譯成為機器翻譯方法的主流模型,然而神經機器翻譯對于數據的依賴性極高,通常而言訓練數據越大翻譯質量越佳,對于少數語言的機器翻譯,其雙語平行語料的不足往往成為限制其翻譯質量的重要因素,尤其是在特殊領域的機器翻譯,高質量的領域語料和大量的通用語料相比十分稀少。需要采取一些數據增強的方法來改善翻譯質量,其中典型的方法即利用單語語料進行反向翻譯獲取偽平行語料。因此,如何有效獲取大量高質量的單語語料,并保證其反向翻譯過程中質量損失更少以此改善機器翻譯模型成為研究目標之一。另一方面,相比較于龐大的單語通用語料而言,特殊領域的單語數據更加稀少以及不平衡問題導致訓練過程中領域知識被忽略,翻譯模型在實際領域的翻譯效果不佳。
反向翻譯是一種利用單語語料提升訓練數據質量的常用方法。將反向翻譯方法應用于語料缺乏的機器翻譯任務在不同的文獻當中都驗證了有效性。其中Edunov等人(Sergey?Edunov,et?al.2018.Understanding?Back-Translation?at?Scale.InProceedings?of?the?2018Conference?on?Empirical?Methods?in?Natural?LanguageProcessing,pages?489–500,Brussels,Belgium.Association?for?ComputationalLinguistics)對不同場景下反向翻譯進行了研究,證明了反向翻譯能提升BLEU。Sennrich等人(Rico?Sennrich,Barry?Haddow,and?Alexandra?Birch.2016.Improving?NeuralMachine?Translation?Models?with?Monolingual?Data.In?Proceedings?of?the?54thAnnual?Meeting?of?the?Association?for?Computational?Linguistics(Volume?1:LongPapers),pages86–96,Berlin,Germany.Association?for?Computational?Linguistics.)則利用反向翻譯的單語數據和原語料混合后加入訓練提高翻譯質量,同時他們的進一步研究證明這種目標單語的合成數據對領域自適應有很大幫助(Rico?Sennrich,BarryHaddow,and?Alexandra?Birch.2016c.Neural?machine?translation?of?rare?wordswith?subword?units.In?Proceedings?of?the?54th?Annual?Meeting?of?theAssociation?for?Computational?Linguistics(Volume?1:Long?Papers),pages?1715–1725,Berlin,Germany,August.Association?for?Computational?Linguistics)。而在領域數據的構建上,一般直接采用現有的人工標記的領域數據集或使用同義詞相似性和句子相似性替換的方式構成數據集。面臨通用數據和領域內數據的采樣問題上,通過增加領域相關權重及改變模型訓練目標是常見的方式。如Chen等人(Boxing?Chen,Colin?Cherry,George?Foster,and?Samuel?Larkin.2017a.Cost?weighting?for?neural?machinetranslation?domain?adaptation.In?Proceedings?of?the?First?Workshop?on?NeuralMachine?Translation,pages?40–46,Vancouver.)通過提前訓練一個領域分類,并把輸出概率遷移到翻譯模型中代替實際權重,Wang等人(Rui?Wang,Masao?Utiyama,AndrewFinch,Lemao?Liu,Kehai?Chen,and?Eiichiro?Sumita.2018.Sentence?selection?andweighting?for?neural?machine?translation?domain?adaptation.IEEE/ACMTransactions?on?Audio,Speech,and?Language?Processing)則通過句子選擇和領域加權進行聯合訓練。然而這些方法存在一些不足:一是人工標記的領域數據較少,而基于替代的方式過于機械且不符合現實分布;在領域和通用數據集學習上,缺乏領域權重的模型無法解決樣本分布不平衡的問題,不能很好學習領域知識,而提前訓練額外的分類器在遷移過程中仍需要進行一輪權重調整來適應模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310386735.1/2.html,轉載請聲明來源鉆瓜專利網。





