[發明專利]翻譯模型訓練方法及裝置在審
| 申請號: | 202310195329.7 | 申請日: | 2023-02-24 |
| 公開(公告)號: | CN116306696A | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 賈承勛 | 申請(專利權)人: | 北京金山數字娛樂科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/126;G06F40/289;G06N3/045;G06N3/0455;G06N3/08 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 張瑞 |
| 地址: | 100085 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 翻譯 模型 訓練 方法 裝置 | ||
本申請提供翻譯模型訓練方法及裝置,其中所述翻譯模型訓練方法包括:確定初始語料集合中每個初始語料對的語料對分值,其中,初始語料對由對應源語種和對應目標語種的語句組成;根據所述語料對分值在所述初始語料集合中,篩選出關聯所述源語種和所述目標語種的初始語料對組成中間語料集合;在所述中間語料集合中選擇滿足預設平行關系的中間語料對組成目標語料集合,并在所述目標語料集合中確定目標語料對;將所述目標語料對添加至語料樣本集,并利用所述語料樣本集對初始翻譯模型進行訓練;實現對訓練翻譯模型的語料進行篩選,以獲得翻譯關系更強的語料,以此為基礎可以訓練出翻譯精度更高的翻譯模型。
技術領域
本申請涉及機器學習技術領域,特別涉及翻譯模型訓練方法及裝置。
背景技術
人工智能(artificial?intelligence;AI)是指已工程化(即設計并制造)的系統感知環境的能力,以及獲取、處理、應用和表示知識的能力。人工智能深度學習框架實現了對算法的封裝。隨著人工智能的發展,各種深度學習框架不斷的涌現;TensorFlow、PyTorch等通用型深度學習框架,應用于自然語言處理、計算機視覺、語音處理等領域,以及機器翻譯、智慧金融、智能醫療、自動駕駛等行業。是現今應用較為廣泛的一種深度學習框架。而自然語言處理是計算機科學領域與人工智能領域中的一個重要方向,研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法,涉及的領域較多,主要包括機器翻譯(是利用計算機將一種自然語言(源語言)轉換為另一種自然語言(目標語言)的過程)、機器閱讀理解(是指給一段context描述,然后對應的給一個query,機器通過閱讀context后,給出對應query的答案)、問答系統(Question?AnsweringSystem,QA,是信息檢索系統的一種高級形式,它能用準確、簡潔的自然語言回答用戶用自然語言提出的問題)、主題/關鍵詞提取等。
在機器翻譯場景下,為了能夠提高翻譯模型的翻譯精度,需要在模型訓練階段采集大量的平行語料對翻譯模型進行訓練,而平行語料的質量和數量是確保翻譯模型預測精度的基礎。現有技術中,平行語料的篩選大多數基于邊距的評分方法完成,雖然能夠達到平行語料篩選的目的,但是其篩選出的平行語料質量較低,致使訓練出的翻譯模型預測精度不高,因此亟需一種有效的方案以解決上述問題。
發明內容
有鑒于此,本申請實施例提供了一種翻譯模型訓練方法,以解決現有技術中存在的技術缺陷。本申請實施例同時提供了一種翻譯模型訓練裝置,一種翻譯方法,一種翻譯裝置,一種計算設備,以及一種計算機可讀存儲介質。
根據本申請實施例的第一方面,提供了一種翻譯模型訓練方法,包括:
確定初始語料集合中每個初始語料對的語料對分值,其中,初始語料對由對應源語種和對應目標語種的語句組成;
根據所述語料對分值在所述初始語料集合中,篩選出關聯所述源語種和所述目標語種的初始語料對組成中間語料集合;
在所述中間語料集合中選擇滿足預設平行關系的中間語料對組成目標語料集合,并在所述目標語料集合中確定目標語料對;
將所述目標語料對添加至語料樣本集,并利用所述語料樣本集對初始翻譯模型進行訓練。
根據本申請實施例的第二方面,提供了一種翻譯模型訓練裝置,包括:
確定模塊,被配置為確定初始語料集合中每個初始語料對的語料對分值,其中,初始語料對由對應源語種和對應目標語種的語句組成;
篩選模塊,被配置為根據所述語料對分值在所述初始語料集合中,篩選出關聯所述源語種和所述目標語種的初始語料對組成中間語料集合;
選擇模塊,被配置為在所述中間語料集合中選擇滿足預設平行關系的中間語料對組成目標語料集合,并在所述目標語料集合中確定目標語料對;
訓練模塊,被配置為將所述目標語料對添加至語料樣本集,并利用所述語料樣本集對初始翻譯模型進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山數字娛樂科技有限公司,未經北京金山數字娛樂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310195329.7/2.html,轉載請聲明來源鉆瓜專利網。





