[發明專利]文本糾錯方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010914967.6 | 申請日: | 2020-09-03 |
| 公開(公告)號: | CN112016304A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 鄭立穎;徐亮 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/226 | 分類號: | G06F40/226;G06F40/242;G06F40/284 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 糾錯 方法 裝置 電子設備 存儲 介質 | ||
本發明涉及人工智能技術,揭露了一種文本糾錯方法,包括:獲取待糾錯文本,并對所述待糾錯文本進行分詞,得到詞語集;利用預設的詞典確定所述詞語集中的疑似錯詞;根據所述疑似錯詞確定用于替換所述疑似錯詞的候選詞組集;利用所述候選詞組集中的每個候選詞組替換所述待糾錯文本中的所述疑似錯詞,得到與每個候選詞組對應的候選糾錯語句;利用預先訓練好的語言模型對所述候選糾錯語句進行評分,根據評分確定對所述疑似錯詞進行糾正。本發明還涉及區塊鏈技術,預先訓練好的語言模型可存儲于區塊鏈中。本發明還揭露一種文本糾錯裝置、電子設備及計算機可讀存儲介質。本發明可以提高文本糾錯的準確率和效率。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種文本糾錯方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
隨著計算機的發展,很多文本的書寫不再是用筆書寫,而是轉為計算機輸入打印。但文本書寫過程中往往會出現很多錯誤,如用字錯誤(短板寫成短班),語法錯誤(的地得混用),用詞錯誤(輔助決策寫成扶助決策)等。
目前的文本糾錯方法包括兩大類,一類是分為錯誤識別和錯誤糾正兩個階段,錯誤識別是指定位錯誤在句子中出現的位置,錯誤糾正是指找出已定位錯誤的所有可能替代用詞并找出最合適的詞進行替換修正;第二類是使用深度學習方法同時完成錯誤識別和錯誤修正步驟,并輸出修正后的句子結果。但上述兩類方法中,第一類方法主要基于易混詞詞典,準確率較低;第二類方法必須要收集大量錯誤標注語料進行訓練,效率較低。
發明內容
本發明提供一種文本糾錯方法、裝置、電子設備及計算機可讀存儲介質,其主要目的在于提供一種更高準確率、更高效的文本糾錯方法。
為實現上述目的,本發明提供的一種文本糾錯方法,包括:
獲取待糾錯文本,并對所述待糾錯文本進行分詞,得到詞語集;
利用預設的詞典確定所述詞語集中的疑似錯詞;
根據所述疑似錯詞確定可用于替換所述疑似錯詞的候選詞組集;
利用所述候選詞組集中的每個候選詞組替換所述待糾錯文本中的所述疑似錯詞,得到與每個候選詞組對應的候選糾錯語句;
利用預先訓練好的語言模型對所述候選糾錯語句進行評分,根據評分確定對所述疑似錯詞進行糾正。
可選地,所述對所述待糾錯文本進行分詞,得到詞語集,包括:
將所述待糾錯文本按句進行劃分,得到待糾錯語句集;
對所述待糾錯語句集中的每個語句進行分詞,得到詞語集。
可選地,所述對所述待糾錯語句集中的每個語句進行分詞,包括:
利用前綴分詞詞典對所述語句進行切分,得到一種或者多種劃分方式下的原始詞語集;
根據所述原始詞語集,通過首尾相連構建有向無環圖;
采用動態規劃算法計算所述有向無環圖中的最大概率路徑,選擇所述最大概率路徑對應的劃分方式得到的分詞結果。
可選地,所述利用預設的詞典確定所述詞語集中的疑似錯詞,包括:
選擇所述詞語集中的一個詞語;
查找所述詞語是否存在于預設的常用詞詞典及場景專業詞詞典中;
在所述詞語不存在于所述常用詞詞典及場景專業詞詞典中時,將所述詞語劃歸為疑似錯詞。
可選地,所述根據所述疑似錯詞確定可用于替換所述疑似錯詞的候選詞組集,包括:
將所述疑似錯詞按字進行拆分,得到一個或多個疑似錯字;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010914967.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種日程時間表的空閑時間處理方法和系統
- 下一篇:一種鋁合金門窗





