[發(fā)明專利]中文錯(cuò)字檢測(cè)方法及系統(tǒng)有效

申請(qǐng)?zhí)枺?/td>	201810942637.0	申請(qǐng)日：	2018-08-17
公開（公告）號(hào)：	CN109213998B	公開（公告）日：	2023-06-23
發(fā)明（設(shè)計(jì)）人：	夏天;劉智美;龔永罡	申請(qǐng)（專利權(quán)）人：	上海蜜度信息技術(shù)有限公司
主分類號(hào)：	G06F40/232	分類號(hào)：	G06F40/232;G06F40/284;G06F40/216
代理公司：	北京華清迪源知識(shí)產(chǎn)權(quán)代理有限公司 11577	代理人：	丁彥峰
地址：	200120 上海市浦東新區(qū)中國(guó)(上***	國(guó)省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	中文錯(cuò)字檢測(cè) 方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種中文錯(cuò)字檢測(cè)方法及系統(tǒng)，該方法包括：步驟S1：獲取待檢測(cè)文本；步驟S2：對(duì)待檢測(cè)文本進(jìn)行分詞處理，得到分詞數(shù)組，令i＝1；步驟S3：根據(jù)預(yù)先建立的bigram語言模型以及trigram語言模型獲取tsubgt;i/subgt;tsubgt;i+1/subgt;在bigram語言模型中的頻次以及tsubgt;i/subgt;tsubgt;i+1/subgt;tsubgt;i+2/subgt;在trigram語言模型中的頻次，若tsubgt;i/subgt;tsubgt;i+1/subgt;在bigram語言模型中的頻次小于第一閾值且tsubgt;i/subgt;tsubgt;i+1/subgt;tsubgt;i+2/subgt;在trigram語言模型中的頻次小于第二閾值，則對(duì)tsubgt;i/subgt;進(jìn)行錯(cuò)誤檢測(cè)處理；步驟S4：執(zhí)行i＝i+1，若i≤n?2，重復(fù)執(zhí)行步驟S3，若i＞n?2，執(zhí)行步驟S5；步驟S5：根據(jù)錯(cuò)誤檢測(cè)處理的結(jié)果生成修改建議列表。本發(fā)明能滿足互聯(lián)網(wǎng)大規(guī)模海量文本的實(shí)時(shí)處理需求。

技術(shù)領(lǐng)域

本發(fā)明涉及語言處理技術(shù)領(lǐng)域，具體涉及一種中文錯(cuò)字檢測(cè)方法及系統(tǒng)。

背景技術(shù)

信息化社會(huì)下，中文書寫大量通過電腦處理，中文文字可以錄入到電腦的方法主要有三種：拼音輸入法、五筆輸入法、OCR掃描。每天通過電腦處理的中文文字?jǐn)?shù)以千億計(jì)算，各種輸入法和OCR掃描會(huì)產(chǎn)生大量的錯(cuò)別字問題，包括同音字問題、多音字問題、音近字問題、形近字問題、多字、少字、詞語搭配不對(duì)、歷史文化常識(shí)性錯(cuò)誤、語法搭配錯(cuò)誤、標(biāo)點(diǎn)符號(hào)錯(cuò)誤等，錯(cuò)別字問題長(zhǎng)期廣泛存在，對(duì)人們的工作和生活帶來極大影響，例如，經(jīng)濟(jì)合同里的錯(cuò)別字可能會(huì)導(dǎo)致巨大的商業(yè)損失，知名公眾人物的錯(cuò)別字問題可能會(huì)影響其發(fā)展前途，高考作文里的錯(cuò)別字也一定會(huì)影響到學(xué)生的升學(xué)成績(jī)，政府網(wǎng)站、新聞媒體里的錯(cuò)別字甚至?xí)斐烧帕Φ膯适А?/p>

然而，目前的錯(cuò)別字處理方法不但復(fù)雜，而且效率低下，不能滿足互聯(lián)網(wǎng)大規(guī)模海量文本的實(shí)時(shí)處理需求。

發(fā)明內(nèi)容

本發(fā)明的目的在于提供一種中文錯(cuò)字檢測(cè)方法及系統(tǒng)，可以提高錯(cuò)字處理效率。

為實(shí)現(xiàn)上述目的，本發(fā)明的技術(shù)方案提供了一種中文錯(cuò)字檢測(cè)方法，包括：

步驟S1：獲取待檢測(cè)文本；

步驟S2：對(duì)所述待檢測(cè)文本進(jìn)行分詞處理，得到分詞數(shù)組T＝[t₁，t₂，t₃，......，t_n]，令i＝1；

步驟S3：根據(jù)預(yù)先建立的bigram語言模型以及trigram語言模型獲取t_it_i+1在所述bigram語言模型中的頻次以及t_it_i+1t_i+2在所述trigram語言模型中的頻次，若t_it_i+1在所述bigram語言模型中的頻次小于第一閾值且t_it_i+1t_i+2在所述trigram語言模型中的頻次小于第二閾值，則對(duì)t_i進(jìn)行錯(cuò)誤檢測(cè)處理；

步驟S4：執(zhí)行i＝i+1，若i≤n-2，重復(fù)執(zhí)行步驟S3，若i＞n-2，執(zhí)行步驟S5；

步驟S5：根據(jù)所述錯(cuò)誤檢測(cè)處理的結(jié)果生成修改建議列表。

進(jìn)一步地，所述錯(cuò)誤檢測(cè)處理包括：

步驟A：判斷t_i+1與t_i是否相同，若相同，則根據(jù)t_it_i+1在所述bigram語言模型中的頻次以及t_i+1的詞性對(duì)t_i+1執(zhí)行標(biāo)記刪除操作。

進(jìn)一步地，所述錯(cuò)誤檢測(cè)處理還包括：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海蜜度信息技術(shù)有限公司，未經(jīng)上海蜜度信息技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810942637.0/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】