[發明專利]翻譯模型訓練方法及裝置在審
| 申請號: | 202310195329.7 | 申請日: | 2023-02-24 |
| 公開(公告)號: | CN116306696A | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 賈承勛 | 申請(專利權)人: | 北京金山數字娛樂科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/126;G06F40/289;G06N3/045;G06N3/0455;G06N3/08 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 張瑞 |
| 地址: | 100085 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 翻譯 模型 訓練 方法 裝置 | ||
1.一種翻譯模型訓練方法,其特征在于,包括:
確定初始語料集合中每個初始語料對的語料對分值,其中,初始語料對由對應源語種和對應目標語種的語句組成;
根據所述語料對分值在所述初始語料集合中,篩選出關聯所述源語種和所述目標語種的初始語料對組成中間語料集合;
在所述中間語料集合中選擇滿足預設平行關系的中間語料對組成目標語料集合,并在所述目標語料集合中確定目標語料對;
將所述目標語料對添加至語料樣本集,并利用所述語料樣本集對初始翻譯模型進行訓練。
2.根據權利要求1所述的方法,其特征在于,所述確定初始語料集合中每個初始語料對的語料對分值步驟執行之前,還包括:
獲取對應所述源語種的第一語料;
對所述第一語料進行翻譯處理,獲得對應所述目標語種的第二語料;
基于所述第一語料和所述第二語料構建擴增語料對,并將所述擴增語料對添加至預設語料集合,獲得所述初始語料集合。
3.根據權利要求1所述的方法,其特征在于,所述初始語料集合中任意一個初始語料對的語料對分值的確定,包括:
在所述初始語料對中確定對應所述源語種的源語種語句,以及對應所述目標語種的目標語種語句;
選擇對應所述源語種的語句識別算法對所述源語種語句進行識別處理,根據識別處理結果確定所述源語種語句對應的源語種分值;
選擇對應所述目標語種的語句識別算法對所述目標語種語句進行識別處理,根據識別處理結果確定所述目標語種語句對應的目標語種分值;
根據所述源語種分值和所述目標語種分值,確定所述初始語料對的語料對分值。
4.根據權利要求1所述的方法,其特征在于,所述在所述中間語料集合中選擇滿足預設平行關系的中間語料對組成目標語料集合,包括:
將所述中間語料集合中包含的中間語料對,依次輸入至預訓練的語言模型進行處理,獲得每個中間語料對的對齊分值;
按照所述對齊分值對所述中間語料集合中包含的中間語料對進行排序,根據排序結果選擇設定數量的中間語料對,作為滿足預設平行關系的中間語料對;
根據滿足預設平行關系的中間語料對組成所述目標語料集合;
其中,所述預訓練的語言模型用于在詞單元對齊維度,預測每個中間語料對的對齊分值。
5.根據權利要求4所述的方法,其特征在于,所述預訓練的語言模型,通過如下方式訓練:
獲取關聯目標領域的樣本語料集合;
在所述樣本語料集合中確定第一樣本語料對和第二樣本語料對;
通過對所述第二樣本語料對添加噪音處理,獲得負樣本語料對,并將所述第一樣本語料對作為正樣本語料對;
基于所述負樣本語料對和所述正樣本語料對,對初始語言模型進行訓練,直至獲得滿足訓練停止條件的所述預訓練的語言模型。
6.根據權利要求5所述的方法,其特征在于,所述通過對所述第二樣本語料對添加噪音處理,獲得負樣本語料對,包括:
對所述第二樣本語料對中包含的第一樣本語句和第二樣本語句,分別進行詞單元刪除處理,根據詞單元刪除處理結果生成所述負樣本語料對;
和/或,
對所述第二樣本語料對中包含的第一樣本語句和第二樣本語句,分別進行詞單元順序調整處理,根據詞單元順序調整處理結果生成所述負樣本語料對;
和/或,
對所述第二樣本語料對中包含的第一樣本語句和第二樣本語句,分別進行句單元替換處理,根據句單元替換處理結果生成所述負樣本語料對。
7.根據權利要求1所述的方法,其特征在于,所述在所述目標語料集合中確定目標語料對,包括:
在所述目標語料集合包含的初始目標語料對中,提取對應所述源語種的源語種目標語句;
通過領域關聯模型和非領域關聯模型對所述源語種目標語句進行處理,根據處理結果確定每個初始目標語料對的領域關聯分值和非領域關聯分值;
根據所述領域關聯分值和所述非領域關聯分值,在所述目標語料集合中確定所述目標語料對。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山數字娛樂科技有限公司,未經北京金山數字娛樂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310195329.7/1.html,轉載請聲明來源鉆瓜專利網。





