[發明專利]文本糾錯方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202010650353.1 | 申請日: | 2020-07-08 |
| 公開(公告)號: | CN111859921A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 呂海峰;寧義雙;寧可 | 申請(專利權)人: | 金蝶軟件(中國)有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/253;G06F40/284 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 劉雪帆 |
| 地址: | 518000 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 糾錯 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種文本糾錯方法,其特征在于,所述方法包括:
獲取待糾錯的文本語句;
通過基于預先構建的正語料庫訓練的N元語言模型,確定所述文本語句的N元文法概率集合;所述N元文法概率集合中包括所述文本語句中每個字的N元文法概率;
根據所述N元文法概率集合,識別所述文本語句中的疑似錯字;
獲取所述疑似錯字所對應的候選糾正字集合;
根據所述N元語言模型,從所述候選糾正字集合中篩選與所述疑似錯字相應的目標糾正字,并將所述文本語句中的各所述疑似錯字替換為相應的目標糾正字,得到糾正后的文本語句。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
確定所述糾正后的文本語句與所述正語料庫中的每篇文檔之間的相似度;
根據所述相似度,將所述文檔按照相似度從大到小的順序進行排序,并選取前預設數量個文檔作為候選文檔;
根據各所述候選文檔,組成候選字典;
當所述疑似錯字被替換為的所述目標糾正字不存在于所述候選字典中時,則將所述目標糾正字還原為相應的糾錯前的疑似錯字。
3.根據權利要求1所述的方法,其特征在于,所述通過基于預先構建的正語料庫訓練的N元語言模型,確定所述文本語句的N元文法概率集合包括:
確定所述待糾錯的文本語句的N元文法集合;
通過基于預先構建的正語料庫訓練的N元語言模型,確定所述N元文法集合中的每個候選項的N元文法概率;
根據每個所述候選項的N元文法概率,確定所述文本語句中每個字對應的N元文法概率,得到所述文本語句的N元文法概率集合。
4.根據權利要求1所述的方法,其特征在于,所述根據所述N元文法概率集合,識別所述文本語句中的疑似錯字包括:
確定所述N元文法概率集合中的N元文法概率的平均值、絕對誤差和平均絕對誤差;
根據所述絕對誤差和所述平均絕對誤差的比值,確定所述N元文法概率集合中每個N元文法概率對應的概率臨界值;
當所述N元文法概率集合中的N元文法概率小于所述平均值、且所述N元文法概率對應的所述概率臨界值大于預設閾值時,則判定所述N元文法概率在所述文本語句中所對應的字為疑似錯字。
5.根據權利要求1所述的方法,其特征在于,所述獲取所述疑似錯字所對應的候選糾正字集合包括:
確定所述疑似錯字對應的候選字集合;所述候選字集合中的各候選字的拼音與所述疑似錯字的拼音相同或相似;
根據所述候選字集合中的候選字在預先構建的標準字字典中的字頻,對所述候選字按照所述字頻從大到小的順序進行排序;所述標準字字典,是預先基于所述正語料庫構建、且包含所述正語料庫中的每個字和相應的字頻;
從排序后的候選字中,選取前預設數量個候選糾正字,組成所述疑似錯字的候選糾正字集合。
6.根據權利要求1所述的方法,其特征在于,所述根據所述N元語言模型,從所述候選糾正字集合中篩選與所述疑似錯字相應的目標糾正字,并將所述文本語句中的各所述疑似錯字替換為相應的目標糾正字,得到糾正后的文本語句包括:
將待糾正的所述疑似錯字所對應的所述候選糾正字集合中的各候選糾正字,分別替換掉所述待糾錯的文本語句中的所述疑似錯字,得到所述疑似錯字所對應的候選文本語句集合;
通過所述N元語言模型,分別確定所述候選文本語句集合中各候選文本語句的困惑度,并根據所述困惑度,從所述各候選文本語句中選取與所述疑似錯字相應的糾正后的文本語句;所述糾正后的文本語句,為所述疑似錯字被糾正替換為目標糾正字后得到的文本語句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于金蝶軟件(中國)有限公司,未經金蝶軟件(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010650353.1/1.html,轉載請聲明來源鉆瓜專利網。





