[發明專利]機器翻譯模型的訓練方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010550588.3 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111859995A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 張睿卿;張傳強;劉繼強;何中軍;李芝;吳華 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N20/00 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器翻譯 模型 訓練 方法 裝置 電子設備 存儲 介質 | ||
1.一種目標領域的機器翻譯模型的訓練方法,其中,所述方法包括:
從平行語料庫中選擇翻譯質量滿足預設要求、且具備通用領域特征和/或目標領域特征的一組樣本,構成第一訓練樣本集;
從所述平行語料庫中選擇翻譯質量滿足預設要求、不具備通用領域特征和目標領域特征的一組樣本,構成第二訓練樣本集;
分別采用所述第一訓練樣本集和所述第二訓練樣本集,依次訓練目標領域的機器翻譯模型的編碼器和在所述編碼器的各編碼層配置的判別器、以及所述目標領域的機器翻譯模型的編碼器和解碼器;所述判別器用于識別訓練時輸入的樣本所屬的領域。
2.根據權利要求1所述的方法,其中,從平行語料庫中選擇翻譯質量滿足預設要求、具備通用領域特征和/或目標領域特征的一組樣本,構成第一訓練樣本集,包括:
采用所述判別器識別所述平行語料庫中的各所述樣本在通用領域和目標領域之間屬于所述通用領域或者目標領域的概率;
從所述平行語料庫中選擇概率小于第一概率閾值和/或概率大于第二概率閾值、同時翻譯概率大于預設概率閾值的一組樣本,構成所述第一訓練樣本集;其中所述第二概率閾值大于所述第二概率閾值。
3.根據權利要求2所述的方法,其中,從所述平行語料庫中選擇翻譯質量滿足預設要求、不具備通用領域特征和目標領域特征的一組樣本,構成第二訓練樣本集,包括:
從所述平行語料庫中選擇概率大于或者等于所述第一概率閾值且小于或者等于所述第二概率閾值、同時翻譯概率大于預設概率閾值的一組樣本,構成所述第二訓練樣本集。
4.根據權利要求2所述的方法,其中,采用所述判別器識別所述平行語料庫中的各所述樣本在通用領域和目標領域之間屬于所述通用領域或者目標領域的概率,包括:
采用所述目標領域的機器翻譯模型的編碼器的最頂層的編碼層配置的所述判別器,識別所述平行語料庫中的各所述樣本屬于所述通用領域或者目標領域的概率。
5.根據權利要求1所述的方法,其中,分別采用所述第一訓練樣本集和所述第二訓練樣本集,依次訓練目標領域的機器翻譯模型的編碼器和在所述編碼器的各編碼層配置的判別器、以及所述目標領域的機器翻譯模型的編碼器和解碼器,包括:
將所述目標領域的機器翻譯模型的解碼器固定,采用所述第一訓練樣本集訓練所述目標領域的機器翻譯模型的編碼器和在所述編碼器的各編碼層配置的所述判別器;
將所述編碼器的各編碼層配置的所述判別器固定,采用所述第二訓練樣本集訓練所述目標領域的機器翻譯模型的編碼器和解碼器。
6.根據權利要求1-5任一所述的方法,其中,分別采用所述第一訓練樣本集和所述第二訓練樣本集,依次訓練目標領域的機器翻譯模型的編碼器和在所述編碼器的各編碼層配置的判別器、以及所述目標領域的機器翻譯模型的編碼器和解碼器之前,所述方法包括:
獲取基于深度學習技術預先訓練的通用領域的機器翻譯模型,作為所述目標領域的機器翻譯模型。
7.一種目標領域的機器翻譯模型的訓練裝置,其中,所述裝置包括:
第一選擇模塊,用于從平行語料庫中選擇翻譯質量滿足預設要求、且具備通用領域特征和/或目標領域特征的一組樣本,構成第一訓練樣本集;
第二選擇模塊,用于從所述平行語料庫中選擇翻譯質量滿足預設要求、不具備通用領域特征和目標領域特征的一組樣本,構成第二訓練樣本集;
訓練模塊,用于分別采用所述第一訓練樣本集和所述第二訓練樣本集,依次訓練目標領域的機器翻譯模型的編碼器和在所述編碼器的各編碼層配置的判別器、以及所述目標領域的機器翻譯模型的編碼器和解碼器;所述判別器用于識別訓練時輸入的樣本所屬的領域。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010550588.3/1.html,轉載請聲明來源鉆瓜專利網。





