[發明專利]文本糾錯方法、裝置、計算機設備和存儲介質在審

申請號：	202010650353.1	申請日：	2020-07-08
公開（公告）號：	CN111859921A	公開（公告）日：	2020-10-30
發明（設計）人：	呂海峰;寧義雙;寧可	申請（專利權）人：	金蝶軟件（中國）有限公司
主分類號：	G06F40/232	分類號：	G06F40/232;G06F40/253;G06F40/284
代理公司：	廣州華進聯合專利商標代理有限公司 44224	代理人：	劉雪帆
地址：	518000 廣東省深圳市南山區***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本糾錯方法裝置計算機設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請涉及一種文本糾錯方法、裝置、計算機設備和存儲介質。所述方法包括：獲取待糾錯的文本語句；通過基于預先構建的正語料庫訓練的N元語言模型，確定所述文本語句的N元文法概率集合；所述N元文法概率集合中包括所述文本語句中每個字的N元文法概率；根據所述N元文法概率集合，識別所述文本語句中的疑似錯字；獲取所述疑似錯字所對應的候選糾正字集合；根據所述N元語言模型，從所述候選糾正字集合中篩選與所述疑似錯字相應的目標糾正字，并將所述文本語句中的各所述疑似錯字替換為相應的目標糾正字，得到糾正后的文本語句。采用本方法能夠提高文本糾錯的準確性。

技術領域

本申請涉及計算機技術和自然語言處理技術領域，特別是涉及一種文本糾錯方法、裝置、計算機設備和存儲介質。

背景技術

隨著自然語言處理技術的發展，出現了文本糾錯技術，這一技術具有很重要的應用，比如：在通過語音識別得到的文本中，往往會由于環境、口音和設備等因素的影響，而出現同音字、近似音字、錯別字等錯誤，因此，需要通過文本糾錯技術將文本中的錯字進行糾正。

傳統技術中，一般需要通過分詞來進行文本糾錯，然而，如果分詞結果出現錯誤，容易影響對文本中的錯誤字或錯誤詞的識別結果，從而降低了文本糾錯的準確性。

發明內容

基于此，有必要針對上述技術問題，提供一種能夠提高文本糾錯的準確性的文本糾錯方法、裝置、計算機設備和存儲介質。

一種文本糾錯方法，所述方法包括：

獲取待糾錯的文本語句；

通過基于預先構建的正語料庫訓練的N元語言模型，確定所述文本語句的N元文法概率集合；所述N元文法概率集合中包括所述文本語句中每個字的N元文法概率；

根據所述N元文法概率集合，識別所述文本語句中的疑似錯字；

獲取所述疑似錯字所對應的候選糾正字集合；