[發明專利]一種基于相似度進行中文文本糾錯的實現方法在審
| 申請號: | 202210348438.3 | 申請日: | 2022-04-01 |
| 公開(公告)號: | CN114692609A | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 王寧;張發雨;孟奧;黨章;王倫;馮立二;吳興龍;楊正云 | 申請(專利權)人: | 南京優速網絡科技有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/226;G06F40/237;G06F16/31;G06K9/62 |
| 代理公司: | 北京卓嵐智財知識產權代理事務所(特殊普通合伙) 11624 | 代理人: | 左紅文 |
| 地址: | 210000 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 相似 進行 中文 文本 糾錯 實現 方法 | ||
1.一種基于相似度進行中文文本糾錯的實現方法,其特征在于,包括如下步驟:
S1:進行詞庫編譯,在詞庫中收錄固定的表述,多字、少字、換成其它字都是錯誤的,使詞的長度大于4個字,完成后獲得一個可以進行快速檢索的數據結構;
S2:利用S1中編譯好的詞庫,使用字哈希對待檢測文本進行標記,得到一個待檢測文本對應的序列,記錄了待檢測文本中每個字符對應的所有詞的id,這些詞都來自編譯好的詞庫;
S3:使用雙字哈希對S2中所述的序列進行計算處理,找出待檢測文本中所有與詞庫相似的詞,主要依據是詞庫中詞的字在待檢測文本中出現的離散度小于3且出現次數大于詞長度的50%,計算后得到一個疑似相似詞列表;
其中,離散度即連續出現不在正確詞中的字符的個數;
S4:對S3中所述的疑似相似詞列表中的每個詞進行相似度計算,保留相似度大于70的詞,計算后得疑似錯誤列表;
S5:糾錯,過濾掉疑似錯誤列表中滿足以下條件之一的詞,余下的就是最終糾錯結果:
1)相似度為100的;
2)相似度小于100,但其是相似為100的詞的真子串。
2.根據權利要求1所述的基于相似度進行中文文本糾錯的實現方法,其特征在于:所述S1中,對詞庫編譯處理流程如下:
S1.1:準備工作:詞集合,已完成編譯的所有詞;字哈希:key是字符,value是所有包含這個字符的詞的id的集合;雙字哈希:key是兩個字符,value是同時包含key中兩字符的詞的id的集合,其中字符對順序沒有要求;
S1.2:如果待編譯詞已存在于詞集合中,則完成編譯;否則把待編譯詞加入詞集合,同時就擁有了id,并進入S1.3;
S1.3:對待編譯詞中的每個字符進行以下處理:
如果是字哈希的key,則在對應的詞id集合中加入待編譯詞的id;否則,在字哈希中加入這個字符的key,對應的value為只有待編譯詞id一個元素的集合,同時在雙字哈希是加入這個字符與所有字哈希的key組合作為key,value為空集合的值;
S1.4:雙字哈希所有key中兩個字符都在待編譯詞中的value,都加入待編譯詞id。
3.根據權利要求1所述的基于相似度進行中文文本糾錯的實現方法,其特征在于:所述S5中,相似度計算流程如下:
S5.1:準備:差異,用于記錄兩個詞的不同,初始為0;正確詞,是我們用于編譯的詞;相似詞,是待檢測文本中的詞;
S5.2:差異+=字符(屬于正確詞且不屬于相似詞)個數*相似詞長度;
S5.3:差異+=字符(屬于相似詞且不屬于正確詞)個數*正確詞長度;
S5.4:對每個既屬于正確詞又屬于相似詞的字符,按以下方式計算差異;
S5.5:差異+=|正確詞中的出現位置–相似詞中的出現位置|;
S5.6:相似度=100-差異*100/(正確詞長度*相似詞長度)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京優速網絡科技有限公司,未經南京優速網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210348438.3/1.html,轉載請聲明來源鉆瓜專利網。





