[發明專利]錯別字檢測方法、裝置及計算機可讀存儲介質、終端設備有效
| 申請號: | 201810500259.0 | 申請日: | 2018-05-22 |
| 公開(公告)號: | CN108874770B | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 李賢 | 申請(專利權)人: | 廣州視源電子科技股份有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/289 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 梁順宜;郝傳鑫 |
| 地址: | 510530 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 錯別字 檢測 方法 裝置 計算機 可讀 存儲 介質 終端設備 | ||
1.一種錯別字檢測方法,其特征在于,包括:
接收待檢測語句;
獲得所述待檢測語句中的待檢測文字的相鄰文字以及所述相鄰文字的第一混淆集;其中,所述第一混淆集中包含M個相鄰混淆文字,M≥1,所述相鄰混淆文字為預先設置的字典集合中與所述相鄰文字的拼音相同的文字;
根據所述待檢測語句中的每個文字,獲得每個所述相鄰混淆文字的文字概率,并將所述文字概率最大的相鄰混淆文字作為目標相鄰混淆文字;
將所述待檢測語句中的所述相鄰文字替換為所述目標相鄰混淆文字,獲得對應的相鄰混淆語句;
根據所述相鄰混淆語句中的每個文字,分別獲得所述目標相鄰混淆文字的文字概率和所述待檢測文字的文字概率;
根據所述目標相鄰混淆文字的文字概率和所述待檢測文字的文字概率,判斷所述待檢測文字是否為錯別字;
每個所述相鄰混淆文字的文字概率、所述目標相鄰混淆文字的文字概率和所述待檢測文字的文字概率均通過采用Bi-LSTM模型并調用softmax算法計算獲得,且所述Bi-LSTM模型為經過深度學習框架編碼訓練后的Bi-LSTM模型;其中,每個所述相鄰混淆文字的文字概率的計算過程如下:將所述待檢測語句中的相鄰文字替換為對應的相鄰混淆文字后得到的語句輸入所述Bi-LSTM模型,經過softmax層調用softmax算法進行計算,根據接收到的語句中的每個文字計算獲得對應的相鄰混淆文字的文字概率;
所述根據所述目標相鄰混淆文字的文字概率和所述待檢測文字的文字概率,判斷所述待檢測文字是否為錯別字,具體包括:
當所述目標相鄰混淆文字的文字概率和所述待檢測文字的文字概率均大于0.002時,判定所述待檢測文字為正確字;
當所述目標相鄰混淆文字的文字概率不大于0.002或所述待檢測文字的文字概率不大于0.002時,判定所述待檢測文字為錯別字。
2.如權利要求1所述的錯別字檢測方法,其特征在于,在所述接收待檢測語句之后,所述獲得所述待檢測語句中的待檢測文字的相鄰文字以及所述相鄰文字的第一混淆集之前,還包括:
判斷所述相鄰文字是否為錯別字且所述相鄰文字的文字概率是否小于0.00002;
則所述獲得所述待檢測語句中的待檢測文字的相鄰文字以及所述相鄰文字的第一混淆集,具體包括:
當所述相鄰文字為錯別字且所述相鄰文字的文字概率小于0.00002時,獲得與所述相鄰文字相對應的所述第一混淆集;
當所述相鄰文字不為錯別字或所述相鄰文字的文字概率不小于0.00002,判定所述待檢測文字為錯別字。
3.如權利要求2所述的錯別字檢測方法,其特征在于,在所述接收待檢測語句之后,所述判斷所述相鄰文字是否為錯別字且所述相鄰文字的文字概率是否小于0.00002之前,還包括:
根據所述待檢測語句中的每個文字,分別獲得所述待檢測文字的文字概率和所述待檢測文字的K個替換文字的文字概率;其中,K≥1;
將所述待檢測文字和每個所述替換文字按照所述文字概率從大到小的順序排列,獲得所述待檢測文字的排列次序k;
判斷所述待檢測文字的排列次序k是否滿足k>K1;其中,K1=(K+1)*70%;
則所述判斷所述相鄰文字是否為錯別字且所述相鄰文字的文字概率是否小于0.00002,具體包括:
當k>K1時,判斷所述相鄰文字是否為錯別字且所述相鄰文字的文字概率是否小于0.00002;
當k≤K1時,獲得所述待檢測文字的第二混淆集;其中,所述第二混淆集中包含N個混淆文字,N≥1,所述混淆文字為預先設置的字典集合中與所述待檢測文字的拼音相同的文字;
將所述待檢測語句中的所述待檢測文字依次替換為各個所述混淆文字,獲得對應的N個混淆語句;
分別獲得所述待檢測語句的語句概率和每個所述混淆語句的語句概率;
將所述待檢測語句和每個所述混淆語句按照所述語句概率從大到小的順序排列,獲得所述待檢測語句的排列次序n;
根據所述待檢測語句的排列次序n,確定是否需要判斷所述相鄰文字是否為錯別字且所述相鄰文字的文字概率是否小于0.00002。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州視源電子科技股份有限公司,未經廣州視源電子科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810500259.0/1.html,轉載請聲明來源鉆瓜專利網。





