[發明專利]翻譯模型訓練方法、裝置、設備及存儲介質在審
| 申請號: | 202011454443.X | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112560510A | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 葉忠義;張為泰;劉俊華 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F40/49 | 分類號: | G06F40/49;G06F40/58 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 付麗 |
| 地址: | 230088 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 翻譯 模型 訓練 方法 裝置 設備 存儲 介質 | ||
1.一種翻譯模型訓練方法,其特征在于,包括:
獲取源語言和/或目標語言各自的近似語言下的訓練語料,以及所述訓練語料的平行語料,其中,若所述訓練語料的語言與所述源語言近似,則所述平行語料為目標語言,若所述訓練語料的語言為與所述目標語言近似,則所述平行語料為源語言;
針對所述訓練語料中的至少一文本單元,利用所述文本單元在與所述訓練語料語言近似的源語言或目標語言下的平行文本單元進行替換,得到混合語言訓練語料,并由混合語言訓練語料與所述訓練語料的平行語料組成平行語料對;
以所述平行語料對加入訓練樣本集,訓練源語言至目標語言的翻譯模型。
2.根據權利要求1所述的方法,其特征在于,所述針對所述訓練語料中的至少一文本單元,利用所述文本單元在與所述訓練語料語言近似的源語言或目標語言下的平行文本單元進行替換,得到混合語言訓練語料,包括:
獲取所述訓練語料的語義單元;
針對所述訓練語料中的至少一個語義單元,利用所述語義單元在與所述訓練語料語言近似的源語言或目標語言下的平行語義單元進行替換,得到混合語言訓練語料。
3.根據權利要求2所述的方法,其特征在于,所述獲取所述訓練語料的語義單元,包括:
對所述訓練語料進行句法結構分析,得到句法結構樹;
從所述句法結構樹中提取設定句法結構信息,作為訓練語料的語義單元。
4.根據權利要求3所述的方法,其特征在于,所述從所述句法結構樹中提取設定句法結構信息,作為訓練語料的語義單元,包括:
基于所述句法結構樹,將訓練語料中被修飾詞語及其對應的修飾性詞語進行合并;
基于詞語合并后的訓練語料,從中提取設定句法結構信息,作為訓練語料的語義單元。
5.根據權利要求3所述的方法,其特征在于,在所述從所述句法結構樹中提取設定句法結構信息之前,該方法還包括:
對所述訓練語料進行詞性標注,并基于標注的詞性過濾掉虛詞。
6.根據權利要求2所述的方法,其特征在于,所述針對所述訓練語料中的至少一個語義單元,利用所述語義單元在與所述訓練語料語言近似的源語言或目標語言下的平行語義單元進行替換,得到混合語言訓練語料,包括:
對所述訓練語料中每一語義單元,以設定替換比例p的概率標記為需要替換;
采用預訓練的相似語言翻譯模型,按照所述訓練語料中各語義單元標記的替換概率進行翻譯替換,得到模型輸出的混合語言訓練語料,所述相似語言翻譯模型為,處理由所述訓練語料的語言至與其語言近似的源語言或目標語言的翻譯任務的模型。
7.根據權利要求6所述的方法,其特征在于,當所述設定替換比例p大于設定閾值時,所述相似語言翻譯模型為句子級翻譯模型;當所述設定替換比例p不超過所述設定閾值時,所述相似語言翻譯模型為短語級翻譯模型。
8.根據權利要求1所述的方法,其特征在于,還包括:
獲取預訓練的混合翻譯模型,所述混合翻譯模型為處理源語言、源語言近似語言至所述目標語言翻譯任務的模型;
將所述混合語言訓練語料輸入所述混合翻譯模型,得到輸出的預測目標語言語料;
以所述混合語言訓練語料及所述預測目標語言語料組成的平行語料對加入所述訓練樣本集。
9.根據權利要求1所述的方法,其特征在于,所述源語言至目標語言的翻譯模型的初始化參數為預訓練的第三方翻譯模型的模型參數;
其中,若所述訓練語料的語言與所述源語言近似,則所述第三方翻譯模型為處理由所述訓練語料的語言至所述目標語言的翻譯任務的模型;若所述訓練語料的語言與所述目標語言近似,則所述第三方翻譯模型為處理由所述源語言至所述訓練語料的語言的翻譯任務的模型。
10.根據權利要求9所述的方法,其特征在于,所述源語言至目標語言的翻譯模型的訓練過程,隨訓練的進行,訓練樣本集中組成所述平行語料對的混合語言訓練語料中,替換后的平行文本單元的占比逐漸遞增。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011454443.X/1.html,轉載請聲明來源鉆瓜專利網。





