[發明專利]基于多策略原型生成的低資源神經機器翻譯方法在審
| 申請號: | 202210293213.2 | 申請日: | 2022-03-24 |
| 公開(公告)號: | CN114676708A | 公開(公告)日: | 2022-06-28 |
| 發明(設計)人: | 余正濤;朱恩昌;于志強 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/242;G06F40/30;G06F16/2458;G06N3/04;G06N3/08 |
| 代理公司: | 昆明隆合知識產權代理事務所(普通合伙) 53220 | 代理人: | 何嬌 |
| 地址: | 650500 云南*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 策略 原型 生成 資源 神經 機器翻譯 方法 | ||
本發明涉及基于多策略原型生成的低資源神經機器翻譯方法,屬于自然語言處理技術領域。本發明包括步驟:首先結合利用關鍵詞匹配和分布式表示匹配檢索原型序列,如未能獲得匹配,則利用偽原型生成方法產生可用的偽原型序列。其次,為有效地利用原型序列,對傳統的編碼器?解碼器框架進行了改進。編碼端使用額外的編碼器接收原型序列輸入;解碼端在利用門控機制控制信息流動的同時,使用改進的損失函數減少低質量原型序列對模型的影響。本發明提出的方法能夠基于少量平行語料有效地提升檢索結果的數量和質量,適用于低資源環境下及相似性語言環境下的神經機器翻譯。
技術領域
本發明涉及基于多策略原型生成的低資源神經機器翻譯方法,屬于自然語言處理技術領域。
背景技術
近年來,隨著端到端翻譯模型和注意力機制的提出,神經機器翻譯(NeuralMachine Translation,NMT)取得了長足的發展,在主流語言對上的翻譯性能迅速超過統計機器翻譯,逐漸發展為目前主流的機器翻譯模式。為提升神經機器翻譯性能,研究者們提出了各種方法。其中,基于原型序列融入的原型方法受到很多關注。資源豐富場景下,利用相似性翻譯作為目標端原型序列,能夠有效提升神經機器翻譯的性能。然而在低資源場景下,由于平行語料資源匱乏,導致不能匹配得到原型序列或序列質量不佳。因此,在低資源場景下,探索如何有效利用原型序列來提高神經機器翻譯的性能,具有非常重要的研究和應用價值。
原型序列是存在于翻譯記憶庫中的目標端句子,內含目標語言端語義信息。原型方法通過在翻譯進程中引入原型序列來利用目標端語義信息,使其被隱式地用于指導詞對齊和解碼約束等過程。目前原型方法領域的研究工作主要集中在原型檢索和原型利用兩個階段。原型序列檢索方法在資源豐富場景下得到了較好的發展,原因在于資源豐富場景下存在大規模的翻譯記憶庫。因此原型方法可以通過檢索記憶庫得到較高質量的原型序列,進而有效地提升翻譯性能。然而在低資源場景下,受限于平行語料的規模和質量,傳統的原型序列檢索方法往往難以檢索得到可用的原型。對下一步翻譯任務的效果提升有限。除此以外,在對原型序列利用方面,尤其是將原型序列作為編碼輸入融入翻譯模型的方式上,研究者們提出了很多改進方法。例如采用雙編碼器結構對輸入句子和原型序列同時進行編碼,同時在解碼端引入門控機制來平衡源句和原型序列間的信息比例。然而,以上方法均帶來了翻譯性能上的提升,但是仍然主要面向資源豐富場景,較少針對低資源場景進行特定的改進。因此,本發明提出了基于多策略原型生成的低資源神經機器翻譯方法,通過改進的原型獲取方法和特定的翻譯框架結構,更好地提升低資源神經機器翻譯的性能。
發明內容
本發明提供了基于多策略原型生成的低資源神經機器翻譯方法,通過結合傳統檢索方法和所提出的偽原型生成方法提升原型序列獲取的效率和質量,同時利用神經網絡結構改變的方式將檢索到的原型融入編解碼器框架,在最大化利用原型序列所含語義信息的同時削弱低質量序列帶來的影響;能提升低資源神經機器翻譯的性能。
本發明的技術方案是:基于多策略原型生成的低資源神經機器翻譯方法,所述方法的具體步驟如下:
Step1、語料預處理:預處理不同規模的平行訓練語料、驗證語料和測試語料,用于模型訓練、參數調優和效果測試;并構建多語言全局替換詞典和關鍵詞詞典,用于偽原型生成;
Step2、原型生成:利用基于多種策略混合的原型生成方法進行原型生成,以保證原型序列的可用性;該步驟的具體思路為:首先結合使用模糊匹配和分布式表示匹配進行原型檢索,如未檢索到原型,則利用詞替換操作對輸入句子中的關鍵詞進行替換,得到偽原型序列;
Step3、融入原型序列的翻譯模型構建:改進傳統基于注意力機制的神經機器翻譯模型的編解碼器結構,以更好的融入原型序列,使用步驟Step1,Step2的語料作為模型輸入,產生最終譯文。
作為本發明的優選方案,所述Step1的具體步驟為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210293213.2/2.html,轉載請聲明來源鉆瓜專利網。





