[發明專利]文本糾錯方法、裝置、電子設備及存儲介質在審

申請號：	202010914967.6	申請日：	2020-09-03
公開（公告）號：	CN112016304A	公開（公告）日：	2020-12-01
發明（設計）人：	鄭立穎;徐亮	申請（專利權）人：	平安科技（深圳）有限公司
主分類號：	G06F40/226	分類號：	G06F40/226;G06F40/242;G06F40/284
代理公司：	深圳市沃德知識產權代理事務所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 廣東省深圳市福田區福***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本糾錯方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及人工智能技術，揭露了一種文本糾錯方法，包括：獲取待糾錯文本，并對所述待糾錯文本進行分詞，得到詞語集；利用預設的詞典確定所述詞語集中的疑似錯詞；根據所述疑似錯詞確定用于替換所述疑似錯詞的候選詞組集；利用所述候選詞組集中的每個候選詞組替換所述待糾錯文本中的所述疑似錯詞，得到與每個候選詞組對應的候選糾錯語句；利用預先訓練好的語言模型對所述候選糾錯語句進行評分，根據評分確定對所述疑似錯詞進行糾正。本發明還涉及區塊鏈技術，預先訓練好的語言模型可存儲于區塊鏈中。本發明還揭露一種文本糾錯裝置、電子設備及計算機可讀存儲介質。本發明可以提高文本糾錯的準確率和效率。

技術領域

本發明涉及人工智能技術領域，尤其涉及一種文本糾錯方法、裝置、電子設備及計算機可讀存儲介質。

背景技術

隨著計算機的發展，很多文本的書寫不再是用筆書寫，而是轉為計算機輸入打印。但文本書寫過程中往往會出現很多錯誤，如用字錯誤(短板寫成短班)，語法錯誤(的地得混用)，用詞錯誤(輔助決策寫成扶助決策)等。

目前的文本糾錯方法包括兩大類，一類是分為錯誤識別和錯誤糾正兩個階段，錯誤識別是指定位錯誤在句子中出現的位置，錯誤糾正是指找出已定位錯誤的所有可能替代用詞并找出最合適的詞進行替換修正；第二類是使用深度學習方法同時完成錯誤識別和錯誤修正步驟，并輸出修正后的句子結果。但上述兩類方法中，第一類方法主要基于易混詞詞典，準確率較低；第二類方法必須要收集大量錯誤標注語料進行訓練，效率較低。

發明內容

本發明提供一種文本糾錯方法、裝置、電子設備及計算機可讀存儲介質，其主要目的在于提供一種更高準確率、更高效的文本糾錯方法。

為實現上述目的，本發明提供的一種文本糾錯方法，包括：

獲取待糾錯文本，并對所述待糾錯文本進行分詞，得到詞語集；

利用預設的詞典確定所述詞語集中的疑似錯詞；

根據所述疑似錯詞確定可用于替換所述疑似錯詞的候選詞組集；

利用所述候選詞組集中的每個候選詞組替換所述待糾錯文本中的所述疑似錯詞，得到與每個候選詞組對應的候選糾錯語句；

利用預先訓練好的語言模型對所述候選糾錯語句進行評分，根據評分確定對所述疑似錯詞進行糾正。

可選地，所述對所述待糾錯文本進行分詞，得到詞語集，包括：

將所述待糾錯文本按句進行劃分，得到待糾錯語句集；

對所述待糾錯語句集中的每個語句進行分詞，得到詞語集。

可選地，所述對所述待糾錯語句集中的每個語句進行分詞，包括：