[發明專利]文本糾錯方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202010650353.1 | 申請日: | 2020-07-08 |
| 公開(公告)號: | CN111859921A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 呂海峰;寧義雙;寧可 | 申請(專利權)人: | 金蝶軟件(中國)有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/253;G06F40/284 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 劉雪帆 |
| 地址: | 518000 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 糾錯 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種文本糾錯方法、裝置、計算機設備和存儲介質。所述方法包括:獲取待糾錯的文本語句;通過基于預先構建的正語料庫訓練的N元語言模型,確定所述文本語句的N元文法概率集合;所述N元文法概率集合中包括所述文本語句中每個字的N元文法概率;根據所述N元文法概率集合,識別所述文本語句中的疑似錯字;獲取所述疑似錯字所對應的候選糾正字集合;根據所述N元語言模型,從所述候選糾正字集合中篩選與所述疑似錯字相應的目標糾正字,并將所述文本語句中的各所述疑似錯字替換為相應的目標糾正字,得到糾正后的文本語句。采用本方法能夠提高文本糾錯的準確性。
技術領域
本申請涉及計算機技術和自然語言處理技術領域,特別是涉及一種文本糾錯方法、裝置、計算機設備和存儲介質。
背景技術
隨著自然語言處理技術的發展,出現了文本糾錯技術,這一技術具有很重要的應用,比如:在通過語音識別得到的文本中,往往會由于環境、口音和設備等因素的影響,而出現同音字、近似音字、錯別字等錯誤,因此,需要通過文本糾錯技術將文本中的錯字進行糾正。
傳統技術中,一般需要通過分詞來進行文本糾錯,然而,如果分詞結果出現錯誤,容易影響對文本中的錯誤字或錯誤詞的識別結果,從而降低了文本糾錯的準確性。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠提高文本糾錯的準確性的文本糾錯方法、裝置、計算機設備和存儲介質。
一種文本糾錯方法,所述方法包括:
獲取待糾錯的文本語句;
通過基于預先構建的正語料庫訓練的N元語言模型,確定所述文本語句的N元文法概率集合;所述N元文法概率集合中包括所述文本語句中每個字的N元文法概率;
根據所述N元文法概率集合,識別所述文本語句中的疑似錯字;
獲取所述疑似錯字所對應的候選糾正字集合;
根據所述N元語言模型,從所述候選糾正字集合中篩選與所述疑似錯字相應的目標糾正字,并將所述文本語句中的各所述疑似錯字替換為相應的目標糾正字,得到糾正后的文本語句。
在其中一個實施例中,所述方法還包括:
確定所述糾正后的文本語句與所述正語料庫中的每篇文檔之間的相似度;
根據所述相似度,將所述文檔按照相似度從大到小的順序進行排序,并選取前預設數量個文檔作為候選文檔;
根據各所述候選文檔,組成候選字典;
當所述疑似錯字被替換為的所述目標糾正字不存在于所述候選字典中時,則將所述目標糾正字還原為相應的糾錯前的疑似錯字。
在其中一個實施例中,所述通過基于預先構建的正語料庫訓練的N元語言模型,確定所述文本語句的N元文法概率集合包括:
確定所述待糾錯的文本語句的N元文法集合;
通過基于預先構建的正語料庫訓練的N元語言模型,確定所述N元文法集合中的每個候選項的N元文法概率;
根據每個所述候選項的N元文法概率,確定所述文本語句中每個字對應的N元文法概率,得到所述文本語句的N元文法概率集合。
在其中一個實施例中,所述根據所述N元文法概率集合,識別所述文本語句中的疑似錯字包括:
確定所述N元文法概率集合中的N元文法概率的平均值、絕對誤差和平均絕對誤差;
根據所述絕對誤差和所述平均絕對誤差的比值,確定所述N元文法概率集合中每個N元文法概率對應的概率臨界值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于金蝶軟件(中國)有限公司,未經金蝶軟件(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010650353.1/2.html,轉載請聲明來源鉆瓜專利網。





