[發明專利]機器翻譯中的模型訓練方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010550591.5 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111859997A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 張睿卿;張傳強;何中軍;李芝;吳華 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06K9/62;G06F40/30;G06N20/00 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器翻譯 中的 模型 訓練 方法 裝置 電子設備 存儲 介質 | ||
本申請公開了一種機器翻譯中的模型訓練方法、裝置、電子設備及存儲介質,涉及自然語言處理技術領域、以及深度學習技術領域。具體實現方案為:基于平行語料庫,采用機器翻譯模型和語義相似度模型,挖掘一組樣本的相似目標語句,并創建第一訓練樣本集;采用第一訓練樣本集,訓練機器翻譯模型;基于平行語料庫,采用機器翻譯模型和語義相似度模型,挖掘一組樣本中各樣本的負樣本,并創建第二訓練樣本集;采用第二樣本訓練集,訓練語義相似度模型。本申請通過采用上述技術方能,將兩個模型的聯合訓練,能夠在訓練語義相似度模型的同時,優化機器翻譯模型,并反哺語義相似度模型,使得語義相似度模型的準確性進一步得到提高。
技術領域
本申請涉及計算機技術領域,尤其涉及自然語言處理技術領域、以及深度學習技術領域,具體涉及一種機器翻譯中的模型訓練方法、裝置、電子設備及存儲介質。
背景技術
在自然語言處理(Natural Language Processing;NLP)中,經常涉及到機器翻譯,目前主要采用基于深度學習技術預先訓練的機器翻譯模型對語句進行翻譯。但是,有些時候一個源語句,可以存在表意相同的不同的翻譯結果,均可以作為源語句的翻譯結果。例如,此時可以采用語義相似度模型來衡量翻譯結果是否相似,
現有的機器翻譯領域的語義相似度模型可以采用平行語料語料庫來進行訓練。該平行語料庫中包括多條樣本,每條樣本中包括一個句對(x,y),x為源語句和y為翻譯后的目標語句,源語句和目標語句采用不同的語言。該語義相似度模型可以將源語言和目標語言映射到同一表示空間(emb)。具體來說,對于平行語料庫中的每一個句對(x,y),訓練目標是令(x,y)之間的相似度sim(x,y)大于x和訓練樣本組(batch)內任意其它樣本對應的目標語句y'的相似度sim(x,y')大。根據目標函數,稱(x,y)為正樣本,(x,y')為負樣本。該目標函數可以表示為min(sim(x,y')-sim(x,y)),訓練時,就是使得目標函數最小收斂。
但是,在訓練樣本組的其他樣本的目標語句,有的和y'表意非常相似,如“一擊必殺”和“彈無虛發”,其實都可以作為x:“One shot,one kill”的翻譯,但語義相似度模型強制要求x和y的相似度高于x和y',這是不合理的。基于此,可知,現有的語義相似度模型識別機器翻譯模型翻譯的表意相同的目標語句的準確性非常差。
發明內容
為了解決上述技術問題,本申請提供了一種機器翻譯中的模型訓練方法、裝置、電子設備及存儲介質。
根據本申請的一方面,提供了一種機器翻譯中的模型訓練方法,其中,所述方法包括:
基于平行語料庫,采用機器翻譯模型和語義相似度模型,挖掘一組樣本的相似目標語句,并創建第一訓練樣本集;
采用所述第一訓練樣本集,訓練所述機器翻譯模型;
基于所述平行語料庫,采用所述機器翻譯模型和所述語義相似度模型,挖掘一組樣本中各樣本的負樣本,并創建第二訓練樣本集;
采用所述第二樣本訓練集,訓練所述語義相似度模型。
根據本申請的另一方面,提供了一種機器翻譯中的模型訓練裝置,其中,所述裝置包括:
第一創建模塊,用于基于平行語料庫,采用機器翻譯模型和語義相似度模型,挖掘一組樣本的相似目標語句,并創建第一訓練樣本集;
第一訓練模塊,用于采用所述第一訓練樣本集,訓練所述機器翻譯模型;
第二創建模塊,用于基于所述平行語料庫,采用所述機器翻譯模型和所述語義相似度模型,挖掘一組樣本中各樣本的負樣本,并創建第二訓練樣本集;
第二訓練模塊,用于采用所述第二樣本訓練集,訓練所述語義相似度模型。
根據本申請的再一方面,提供了一種電子設備,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010550591.5/2.html,轉載請聲明來源鉆瓜專利網。





