[發明專利]數據處理方法、裝置及計算機存儲介質在審
| 申請號: | 202110080558.5 | 申請日: | 2021-01-21 |
| 公開(公告)號: | CN112784611A | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 張高偉;趙德祥;孔二勇;劉宇 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/232;G06F16/33;G06F16/387;G06N3/08 |
| 代理公司: | 北京合智同創知識產權代理有限公司 11545 | 代理人: | 李杰;蘭淑鐸 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 計算機 存儲 介質 | ||
本申請實施例提供了一種數據處理方法、裝置、電子設備及存儲介質。根據本申請實施例提供的方案,首先通過獲取得到的包含正確語料元素和錯誤語料元素的真實平行語料訓練得到反向錯誤生成模型,并基于反向錯誤生成模型得到大量的模擬平行語料,從而可以基于所述模擬平行語料進行模型訓練得到預訓練模型,以及基于真實平行語料對預訓練模型進行調整得到糾錯模型,提高了訓練得到的糾錯模型的泛化性能,糾錯模型也更準確。
技術領域
本申請實施例涉及計算機技術領域,尤其涉及一種數據處理方法、裝置及計算機存儲介質。
背景技術
在糾錯場景中,神經網絡機器翻譯(Neural Machine Translation,NMT)模型開始逐漸替代統計翻譯(SMT)模型,將搜索時輸入的錯誤文本糾正為正確文本。NMT模型在模型訓練階段,通常需要使用同時包含模擬錯誤語料元素和正確語料元素的平行語料,也即:錯誤→正確語料對進行訓練。例如,錯誤語料為“樂明苑”,正確語料為“樂民苑”,則“樂明苑”和“樂民苑”即構成了一組平行語料。
然而,平行語料特別是雙語平行語料(例如,京鵬串吧→京朋串吧)的挖掘成本往往很高,但挖掘出雙語平行語料的數量較少情況,這會影響訓練得到的NMT模型的準確度。
因此,如何提升NMT模型的糾錯能力以實現準確的查詢或者搜索成為亟待解決的問題。
發明內容
有鑒于此,本申請實施例提供一種數據處理方案,以至少部分解決上述問題。
根據本申請實施例的第一方面,提供了一種數據處理方法,包括:獲取包含正確語料元素和錯誤語料元素的真實平行語料,用所述真實平行語料訓練反向錯誤生成模型;獲取模擬正確語料元素,用所述反向錯誤生成模型預測所述模擬正確語料元素對應的模擬錯誤語料元素,生成包含所述模擬正確語料元素和對應的模擬錯誤語料元素的模擬平行語料;用所述模擬平行語料訓練序列映射模型得到預訓練模型;用所述真實平行語料進行所述預訓練模型調整,得到糾錯模型。
根據本申請實施例的第二方面,提供了一種數據處理裝置,包括:錯誤模型訓練模塊,獲取包含正確語料元素和錯誤語料元素的真實平行語料,用所述真實平行語料訓練反向錯誤生成模型;模擬模塊,獲取模擬正確語料元素,用所述反向錯誤生成模型預測所述模擬正確語料元素對應的模擬錯誤語料元素,生成包含所述模擬正確語料元素和對應的模擬錯誤語料元素的模擬平行語料;預訓練模塊,用所述模擬平行語料訓練序列映射模型得到預訓練模型;糾錯模型訓練模塊,用所述真實平行語料進行所述預訓練模型調整,得到糾錯模型。
根據本申請實施例的第三方面,提供了另一種數據處理方法,包括:接收攜帶查詢詞的查詢請求;通過訓練完成的糾錯模型,對存在錯誤的查詢詞進行糾錯處理,獲得正確的查詢詞,其中,所述糾錯模型為基于前述數據處理方法獲得的糾錯模型;根據所述糾錯后的查詢詞,召回所述查詢請求對應的查詢結果。
根據本申請實施例的第四方面,提供了一種電子設備,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;所述存儲器用于存放至少一可執行指令,所述可執行指令使所述處理器執行如第一方面或第三方面所述的數據處理方法對應的操作。
根據本申請實施例的第五方面,提供了一種計算機存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如第一方面或第三方面所述的數據處理方法。
根據本申請實施例提供的方案,首先通過獲取得到的包含正確語料元素和錯誤語料元素的真實平行語料訓練得到反向錯誤生成模型,并基于反向錯誤生成模型得到大量的模擬平行語料,從而可以基于所述模擬平行語料進行模型訓練得到預訓練模型,以及基于真實平行語料對預訓練模型進行調整得到糾錯模型,提高了訓練得到的糾錯模型的泛化性能,糾錯模型也更準確。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110080558.5/2.html,轉載請聲明來源鉆瓜專利網。





