[發(fā)明專利]一種基于相似度進(jìn)行中文文本糾錯(cuò)的實(shí)現(xiàn)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210348438.3 | 申請(qǐng)日: | 2022-04-01 |
| 公開(公告)號(hào): | CN114692609A | 公開(公告)日: | 2022-07-01 |
| 發(fā)明(設(shè)計(jì))人: | 王寧;張發(fā)雨;孟奧;黨章;王倫;馮立二;吳興龍;楊正云 | 申請(qǐng)(專利權(quán))人: | 南京優(yōu)速網(wǎng)絡(luò)科技有限公司 |
| 主分類號(hào): | G06F40/232 | 分類號(hào): | G06F40/232;G06F40/226;G06F40/237;G06F16/31;G06K9/62 |
| 代理公司: | 北京卓嵐智財(cái)知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11624 | 代理人: | 左紅文 |
| 地址: | 210000 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 相似 進(jìn)行 中文 文本 糾錯(cuò) 實(shí)現(xiàn) 方法 | ||
本發(fā)明提供了一種基于相似度進(jìn)行中文文本糾錯(cuò)的實(shí)現(xiàn)方法,其特征在于,包括如下步驟:進(jìn)行詞庫編譯;利用編譯好的詞庫,使用字哈希對(duì)待檢測(cè)文本進(jìn)行標(biāo)記,得到一個(gè)待檢測(cè)文本對(duì)應(yīng)的序列,記錄id;使用雙字哈希對(duì)序列進(jìn)行計(jì)算處理,找出待檢測(cè)文本中所有與詞庫相似的詞,計(jì)算后得到一個(gè)疑似相似詞列表;對(duì)S3中所述的疑似相似詞列表中的每個(gè)詞進(jìn)行相似度計(jì)算,保留相似度大于70的詞,計(jì)算后得疑似錯(cuò)誤列表;糾錯(cuò)。本發(fā)明可以提前查找中文文本可能存在的錯(cuò)誤,大大減少了人力成本,并且能夠提高現(xiàn)有文本糾錯(cuò)的檢出率和正確率,具有廣泛的應(yīng)用前景,還可以應(yīng)用于抄襲判斷,文章查重等。
技術(shù)領(lǐng)域
本發(fā)明涉及文本糾錯(cuò)領(lǐng)域,具體涉及一種基于相似度進(jìn)行中文文本糾錯(cuò)的實(shí)現(xiàn)方法。
背景技術(shù)
目前,針對(duì)中文文本,錯(cuò)別字、敏感字都有一些相對(duì)不錯(cuò)的檢測(cè)方案;針對(duì)錯(cuò)別字,有kenlm統(tǒng)計(jì)語言模型工具、transformer模型、conv_seq2seq模型、bert模型以及以bert為基礎(chǔ)的改進(jìn)模型等方式進(jìn)行檢測(cè)識(shí)別;針對(duì)敏感詞,采用記錄敏感詞數(shù)據(jù)庫,然后檢測(cè)匹配的方式進(jìn)行檢測(cè)識(shí)別。雖然錯(cuò)別字和敏感詞檢測(cè)識(shí)別的精準(zhǔn)率和召回率有待進(jìn)步,但是檢測(cè)結(jié)果可以給人提供一定的參考,大大減少了人工工作量。
其中,在錯(cuò)別字識(shí)別方面,pycorrector是一個(gè)中文文本糾錯(cuò)工具。pycorrector依據(jù)語言模型檢測(cè)錯(cuò)別字位置,通過拼音音似特征、筆畫五筆編輯距離特征及語言模型困惑度特征糾正錯(cuò)別字。集成了上面提到的多種模型,并提供了針對(duì)多種模型的快速使用方式,比如:pycorrector集成bert檢測(cè)識(shí)別錯(cuò)別字。但是現(xiàn)有的中文文本中糾錯(cuò)方法都不能找到所有錯(cuò)誤。本文的方法也不能解決所有的問題,只是可以提高檢出率和正確率。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于相似度進(jìn)行中文文本糾錯(cuò)的實(shí)現(xiàn)方法,實(shí)現(xiàn)對(duì)現(xiàn)有中文文本糾錯(cuò)方法的檢出率和正確率進(jìn)行改進(jìn),更好地發(fā)現(xiàn)和糾正表述錯(cuò)誤,減少文字工作者的校對(duì)工作量,提高工作效率。本發(fā)明的核心是一種快速的相似度計(jì)算方法,文本糾錯(cuò)只是一個(gè)具體的應(yīng)用,除此之外,還可以應(yīng)用于抄襲判斷,文章查重等。以解決上述背景技術(shù)中提出的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:
一種基于相似度進(jìn)行中文文本糾錯(cuò)的實(shí)現(xiàn)方法,其特征在于,包括如下步驟:
S1:進(jìn)行詞庫編譯,在詞庫中收錄固定的表述,多字、少字、換成其它字都是錯(cuò)誤的,使詞的長度大于4個(gè)字,完成后獲得一個(gè)可以進(jìn)行快速檢索的數(shù)據(jù)結(jié)構(gòu);
S2:利用S1中編譯好的詞庫,使用字哈希對(duì)待檢測(cè)文本進(jìn)行標(biāo)記,得到一個(gè)待檢測(cè)文本對(duì)應(yīng)的序列,記錄了待檢測(cè)文本中每個(gè)字符對(duì)應(yīng)的所有詞的id,這些詞都來自編譯好的詞庫;
S3:使用雙字哈希對(duì)S2中所述的序列進(jìn)行計(jì)算處理,找出待檢測(cè)文本中所有與詞庫相似的詞,主要依據(jù)是詞庫中詞的字在待檢測(cè)文本中出現(xiàn)的離散度小于3且出現(xiàn)次數(shù)大于詞長度的50%,計(jì)算后得到一個(gè)疑似相似詞列表;
其中,離散度即連續(xù)出現(xiàn)不在正確詞中的字符的個(gè)數(shù);
S4:對(duì)S3中所述的疑似相似詞列表中的每個(gè)詞進(jìn)行相似度計(jì)算,保留相似度大于70的詞,計(jì)算后得疑似錯(cuò)誤列表;
S5:糾錯(cuò),過濾掉疑似錯(cuò)誤列表中滿足以下條件之一的詞,余下的就是最終糾錯(cuò)結(jié)果:
1)相似度為100的;
2)相似度小于100,但其是相似為100的詞的真子串。
所述S1中,對(duì)詞庫編譯處理流程如下:
S1.1:準(zhǔn)備工作:詞集合,已完成編譯的所有詞;字哈希:key是字符,value是所有包含這個(gè)字符的詞的id的集合;雙字哈希:key是兩個(gè)字符,value是同時(shí)包含key中兩字符的詞的id的集合,其中字符對(duì)順序沒有要求;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京優(yōu)速網(wǎng)絡(luò)科技有限公司,未經(jīng)南京優(yōu)速網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210348438.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 請(qǐng)求沒有進(jìn)行IMS注冊(cè)的用戶進(jìn)行注冊(cè)的方法
- 對(duì)要進(jìn)行紋理操作的像素進(jìn)行分組
- 對(duì)餐盤進(jìn)行溫度調(diào)節(jié)和進(jìn)行分配的獨(dú)立小車
- 對(duì)圖像進(jìn)行編碼
- 對(duì)任務(wù)進(jìn)行調(diào)度
- 對(duì)任務(wù)進(jìn)行調(diào)度
- 蛋糕(甜蜜進(jìn)行時(shí))
- 對(duì)定位輔助數(shù)據(jù)進(jìn)行分級(jí)和分組以進(jìn)行廣播
- 對(duì)物體進(jìn)行分離和定向以進(jìn)行供料
- 對(duì)工件進(jìn)行評(píng)價(jià)以進(jìn)行加工的方法





