[發明專利]機器翻譯模型的訓練方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010550588.3 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111859995A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 張睿卿;張傳強;劉繼強;何中軍;李芝;吳華 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N20/00 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器翻譯 模型 訓練 方法 裝置 電子設備 存儲 介質 | ||
本申請公開了一種機器翻譯模型的訓練方法、裝置、電子設備及存儲介質,涉及自然語言處理技術領域。具體實現方案為:從平行語料庫中選擇翻譯質量滿足預設要求、且具備通用領域特征和/或目標領域特征的一組樣本,構成第一訓練樣本集;從平行語料庫中選擇翻譯質量滿足預設要求、不具備通用領域特征和目標領域特征的一組樣本,構成第二訓練樣本集;分別采用第一訓練樣本集和第二訓練樣本集,依次訓練目標領域的機器翻譯模型的編碼器和在編碼器的各編碼層配置的判別器、及目標領域的機器翻譯模型的編碼器和解碼器。本申請的訓練方法,省時、省力,可以有效地提高目標領域的機器翻譯模型的訓練效率。
技術領域
本申請涉及計算機技術領域,尤其涉及自然語言處理技術領域,具體涉及一種機器翻譯模型的訓練方法、裝置、電子設備及存儲介質。
背景技術
在自然語言處理(Natural Language Processing;NLP)中,現有的機器翻譯模型可以通用于所有領域,實現對所有領域的語料進行翻譯。因此,這種機器翻譯模型可以稱之為通用領域的機器翻譯模型。
實際應用中,通用領域的機器翻譯模型在訓練時,采集各個領域的雙語訓練樣本進行訓練。且采集的各個領域的雙語訓練樣本具有通用性,通常為各個領域都能夠識別的訓練樣本,以便于適用于各個領域。但是,利用訓練好的機器翻譯模型翻譯某個目標領域的語料時,可能該通用領域的機器翻譯模型在訓練時,未學習過該目標領域的特殊語料,導致無法識別該目標領域的語料,從而無法進行準確翻譯。為了克服該技術問題,現有技術采用有監督的訓練方法,收集目標領域的人工標注的雙語訓練樣本,然后在通用領域的機器翻譯模型上進行微調訓練,得到目標領域的機器翻譯模型。
但是,現有的目標領域的機器翻譯模型的訓練中,由于目標領域的數據較少,需要耗費較多的人力成本標注雙語訓練樣本,導致目標領域的機器翻譯模型訓練過程中,費時、費力,訓練效率低下。
發明內容
為了解決上述技術問題,本申請提供了一種機器翻譯模型的訓練方法、裝置、電子設備及存儲介質。
根據本申請的一方面,提供了一種目標領域的機器翻譯模型的訓練方法,其中,所述方法包括:
從平行語料庫中選擇翻譯質量滿足預設要求、且具備通用領域特征和/或目標領域特征的一組樣本,構成第一訓練樣本集;
從所述平行語料庫中選擇翻譯質量滿足預設要求、不具備通用領域特征和目標領域特征的一組樣本,構成第二訓練樣本集;
分別采用所述第一訓練樣本集和所述第二訓練樣本集,依次訓練目標領域的機器翻譯模型的編碼器和在所述編碼器的各編碼層配置的判別器、以及所述目標領域的機器翻譯模型的編碼器和解碼器;所述判別器用于識別訓練時輸入的樣本所屬的領域。
根據本申請的另一方面,提供了一種目標領域的機器翻譯模型的訓練裝置,其中,所述裝置包括:
第一選擇模塊,用于從平行語料庫中選擇翻譯質量滿足預設要求、且具備通用領域特征和/或目標領域特征的一組樣本,構成第一訓練樣本集;
第二選擇模塊,用于從所述平行語料庫中選擇翻譯質量滿足預設要求、不具備通用領域特征和目標領域特征的一組樣本,構成第二訓練樣本集;
訓練模塊,用于分別采用所述第一訓練樣本集和所述第二訓練樣本集,依次訓練目標領域的機器翻譯模型的編碼器和在所述編碼器的各編碼層配置的判別器、以及所述目標領域的機器翻譯模型的編碼器和解碼器;所述判別器用于識別訓練時輸入的樣本所屬的領域。
根據本申請的再一方面,提供了一種電子設備,包括:
至少一個處理器;以及
與所述至少一個處理器通信連接的存儲器;其中,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010550588.3/2.html,轉載請聲明來源鉆瓜專利網。





