[發明專利]文字拼寫錯誤的修正方法、系統、計算機設備及存儲介質在審
| 申請號: | 201810271932.8 | 申請日: | 2018-03-29 |
| 公開(公告)號: | CN108563632A | 公開(公告)日: | 2018-09-21 |
| 發明(設計)人: | 王鵬 | 申請(專利權)人: | 廣州視源電子科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 余永文 |
| 地址: | 510530 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 拼寫 修正 候選句子 混淆 計算機設備 存儲介質 概率運算 候選字集 語句 錯誤修正 模型檢測 集合 文本 檢測 | ||
本發明涉及一種文字拼寫錯誤的修正方法、系統、計算機設備及存儲介質所述修正方法包括:獲取待修正語句的各個位置上拼寫錯誤的文字,從所述拼寫錯誤的文字的混淆字集中選擇混淆字,組成對應位置的候選字集;其中,所述混淆字集為所述文字拼寫相近的多個文字的集合;分別對各個位置上的候選字集進行笛卡爾積,得到多組候選句子;將所述候選句子分別輸入預先訓練的拼寫錯誤修正模型檢測進行檢測并計算所述候選句子的概率運算值;根據所述概率運算值選擇候選句子修正所述待修正語句。本發明的技術方案實現了對文本輸入中的拼寫錯誤準確、高效的修正。
技術領域
本發明涉及計算機軟件技術領域,特別是涉及一種文字拼寫錯誤的修正方法、系統、計算機設備及存儲介質。
背景技術
隨著計算機軟件技術的不斷發展,對于文本信息的檢索、抽取、翻譯等技術逐漸成熟,然而對于文本的校對還沒有準確高效的方法。
對于文本中錯別字的修正是文本校對的核心環節,文本中的錯字嚴重影響了文本的質量,例如,新聞稿件對錯別字的要求十分嚴格,如果沒有對稿件中的錯別字進行及時的糾正,可能會向讀者傳遞錯誤信息,所以對于文本中錯字的修正具有重要意義。
傳統輸入錯誤的修正方法主要采用基于統計的方法,此方法需要根據上下文中的字、詞等的特征,建立統計語言模型,此方法依賴統計語言模型,在建立統計語言模型的過程中,統計數據稀疏問題會嚴重影響其修正的效率和精度,難以對文本輸入中的拼寫錯誤進行準確、高效的修正。
發明內容
基于此,有必要針對上述難以對文本輸入中的拼寫錯誤進行準確、高效的修正的問題,提供一種文字拼寫錯誤的修正方法、系統、計算機設備及存儲介質。
一種文字拼寫錯誤的修正方法,包括以下步驟:
獲取待修正語句的各個位置上拼寫錯誤的文字,從所述拼寫錯誤的文字的混淆字集中選擇混淆字,組成對應位置的候選字集;其中,所述混淆字集為所述文字拼寫相近的多個文字的集合;
分別對各個位置上的候選字集進行笛卡爾積,得到多組候選句子;
將所述候選句子分別輸入預先訓練的拼寫錯誤修正模型檢測進行檢測并計算所述候選句子的概率運算值;
根據所述概率運算值選擇候選句子修正所述待修正語句。
上述文字拼寫錯誤的修正方法,通過獲取的待修正語句的各個位置上拼寫錯誤的文字從混淆字集中選擇混淆字,組成對應位置的候選字集;然后對各個位置上的候選字集進行笛卡爾積,得到多組候選句子輸入預先訓練的拼寫錯誤修正模型檢測進行檢測并計算概率運算值;再根據概率運算值選擇候選句子修正待修正語句。該技術方案實現了對文本輸入中的拼寫錯誤準確、高效的修正。
在一個實施例中,從所述拼寫錯誤的文字的混淆字集中選擇混淆字,組成對應位置的候選字集的步驟包括:
獲取所述拼寫錯誤的文字在混淆字集中出現概率最大的K個混淆字,組成對應位置的候選字集;其中,K≥2,所述出現概率為拼寫錯誤的文字所對應的混淆字集中各個候選字在當前位置上的出現概率;
根據所述概率運算值選擇候選句子修正所述待修正語句的步驟包括:將所述概率運算值最大的候選句子替換所述待修正語句。
在一個實施例中,所述的文字拼寫錯誤的修正方法還包括:
利用所述拼寫錯誤修正模型檢測待修正語句中各個文字及其對應的混淆字集中各個候選字在當前位置上的出現概率;根據所述出現概率識別待修正語句中拼寫錯誤的文字。
在一個實施例中,所述利用預先訓練的拼寫錯誤修正模型檢測待修正語句中各個文字及其對應的混淆字集中各個候選字在當前位置上的出現概率的步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州視源電子科技股份有限公司,未經廣州視源電子科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810271932.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自然語言地址描述的自動識別方法
- 下一篇:一種語音處理方法和服務器





