[發明專利]文字拼寫錯誤的修正方法、系統、計算機設備及存儲介質在審
| 申請號: | 201810271932.8 | 申請日: | 2018-03-29 |
| 公開(公告)號: | CN108563632A | 公開(公告)日: | 2018-09-21 |
| 發明(設計)人: | 王鵬 | 申請(專利權)人: | 廣州視源電子科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 余永文 |
| 地址: | 510530 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 拼寫 修正 候選句子 混淆 計算機設備 存儲介質 概率運算 候選字集 語句 錯誤修正 模型檢測 集合 文本 檢測 | ||
1.一種文字拼寫錯誤的修正方法,其特征在于,包括以下步驟:
獲取待修正語句的各個位置上拼寫錯誤的文字,從所述拼寫錯誤的文字的混淆字集中選擇混淆字,組成對應位置的候選字集;其中,所述混淆字集為所述文字拼寫相近的多個文字的集合;
分別對各個位置上的候選字集進行笛卡爾積,得到多組候選句子;
將所述候選句子分別輸入預先訓練的拼寫錯誤修正模型檢測進行檢測并計算所述候選句子的概率運算值;
根據所述概率運算值選擇候選句子修正所述待修正語句。
2.根據權利要求1所述的文字拼寫錯誤的修正方法,其特征在于,從所述拼寫錯誤的文字的混淆字集中選擇混淆字,組成對應位置的候選字集的步驟包括:
獲取所述拼寫錯誤的文字在混淆字集中出現概率最大的K個混淆字,組成對應位置的候選字集;其中,K≥2,所述出現概率為拼寫錯誤的文字所對應的混淆字集中各個候選字在當前位置上的出現概率;
根據所述概率運算值選擇候選句子修正所述待修正語句的步驟包括:
將所述概率運算值最大的候選句子替換所述待修正語句。
3.根據權利要求2所述的文字拼寫錯誤的修正方法,其特征在于,還包括:
利用所述拼寫錯誤修正模型檢測待修正語句中各個文字及其對應的混淆字集中各個候選字在當前位置上的出現概率;根據所述出現概率識別待修正語句中拼寫錯誤的文字。
4.根據權利要求3所述的文字拼寫錯誤的修正方法,其特征在于,所述利用預先訓練的拼寫錯誤修正模型檢測待修正語句中各個文字及其對應的混淆字集中各個候選字在當前位置上的出現概率的步驟包括:
將待修正語句中的文字輸入所述拼寫錯誤修正模型進行檢測,得到該文字的下一個位置上各個文字的概率向量,從各個文字的概率向量中獲取下一個文字的出現概率;
獲取所述文字的混淆字集,利用所述拼寫錯誤修正模型檢測所述文字的混淆字集中各個候選字在當前位置上的出現概率。
5.根據權利要求3所述的文字拼寫錯誤的修正方法,其特征在于,所述根據所述出現概率識別待修正語句中拼寫錯誤的文字的步驟包括:
若當前文字的出現概率大于第一概率閾值,則判定該文字沒有拼寫錯誤;
若當前文字的出現概率小于第一概率閾值且大于第二概率閾值,則如果該文字在其相應的混淆集中的出現概率最大,判定該文字沒有拼寫錯誤,否則判定該文字拼寫錯誤。
6.根據權利要求1所述的文字拼寫錯誤的修正方法,其特征在于,所述將所述候選句子分別輸入預先訓練的拼寫錯誤修正模型檢測進行檢測并計算所述候選句子的概率運算值的步驟包括:
將所述候選句子分別輸入預先訓練的拼寫錯誤修正模型檢測各個位置的文字的出現概率;
分別將各個位置的文字的出現概率進行相加或相乘,得到所述候選句子的概率運算值。
7.根據權利要求1所述的文字拼寫錯誤的修正方法,其特征在于,還包括:
利用自然語言的語料數據并建立拼寫錯誤檢測的訓練模型;
對所述語料數據進行預處理得到訓練語料句子;
利用所述訓練語料句子對所述訓練模型進行訓練,得到所述拼寫錯誤檢測模型。
8.根據權利要求7所述的文字拼寫錯誤的修正方法,其特征在于,所述對所述語料數據進行預處理得到訓練語料句子的步驟包括:
將所述訓練模型中的語料數據中的冗余內容進行刪除,以及將非文字的數據用字母進行替換;
以文字和所述字母為單位對語料數據中的句子進行分割,并在句子開頭和結尾添加句子開頭標記和句子結尾標記,生成訓練語料句子。
9.根據權利要求8所述的文字拼寫錯誤的修正方法,其特征在于,基于循環神經網絡技術建立單向的拼寫錯誤檢測的訓練模型;通過前向輸入的訓練語料句子對所述訓練模型進行訓練,得到單向的拼寫錯誤檢測模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州視源電子科技股份有限公司,未經廣州視源電子科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810271932.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自然語言地址描述的自動識別方法
- 下一篇:一種語音處理方法和服務器





