[發明專利]一種字詞重復錯誤的自動識別方法在審

申請號：	202010576591.2	申請日：	2020-06-22
公開（公告）號：	CN111709228A	公開（公告）日：	2020-09-25
發明（設計）人：	王海濤;曹馨宇;劉亮亮;周長青	申請（專利權）人：	中國標準化研究院
主分類號：	G06F40/232	分類號：	G06F40/232;G06F40/242;G06F40/284
代理公司：	南京泉為知識產權代理事務所(特殊普通合伙) 32408	代理人：	許丹丹
地址：	100191***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種字詞重復錯誤自動識別方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種字詞重復錯誤的自動識別方法，其包括如下步驟：對大規模訓練語料分詞后，統計得到訓練語料中包括重復字詞的二元組和三元組結構，及其出現的重復結合度、左上文鄰接詞信息熵及右下文鄰接詞信息熵的步驟；統計并收錄漢語詞典中的包含重復字的詞并建立漢語詞典重復字詞庫的步驟；基于漢語詞典中的重復字詞對待查錯文本中出現的重復字詞進行判斷的步驟；基于統計得到的重復結合度、左上文鄰接詞信息熵及右下文鄰接詞信息熵，對待查錯文本中出現的重復字詞進行判斷的步驟。本發明可快速判斷識別出該重復字詞是否為收錄于詞典中的重復字詞，且能有效判斷出是否為非詞典但屬于日常用語中的重復字詞，判斷識別快速、綜合，實用性高。

技術領域

本發明涉及一種自然語言處理方法，具體涉及中文自動校對領域中字詞重復錯誤的發現方法。

背景技術

在大數據時代，文本數據越來越多，而文本中的錯誤也越來越多，其中字詞重復錯誤(又稱插入錯誤)。而在漢語中，有些詞是可以重復出現的，比如說“研究研究”，但是有些是不能重復出現的，如“道歉道歉”、“的的”，一旦出現就是重復錯誤。

如何自動發現文本中出現的字詞重復錯誤，是中文文本自動校對的研究內容之一。

而漢語中存在這種合理重復字詞的現象，因此簡單的判斷重復詞語會帶來很多的誤判，而現在大部分的中文文本自動校對中對于字詞重復錯誤沒有單獨來進行處理，只是簡單的利用字詞的二元或三元的信息來判斷是否出錯。而重復出現的字詞大部分都不是詞典中的詞，更多是一種日常用語中的常見語言現象，因此如何提供一種方法，可以來判斷字詞中的重復錯誤，且準確高效，這一問題亟待解決。

發明內容

發明目的：為了解決現有技術中的不足，本發明的目的是提供一種字詞重復錯誤的自動識別方法。

技術方案：為解決上述技術問題，本發明提供的一種字詞重復錯誤的自動識別方法，其包括如下步驟：

對大規模訓練語料分詞后，統計得到訓練語料中包括重復字詞的二元組和三元組結構，及其出現的重復結合度、左上文鄰接詞信息熵及右下文鄰接詞信息熵的步驟；

統計并收錄漢語詞典中的包含重復字的詞并建立漢語詞典重復字詞庫的步驟；

基于漢語詞典中的重復字詞對待查錯文本中出現的重復字詞進行判斷的步驟；

基于統計得到的重復結合度、左上文鄰接詞信息熵及右下文鄰接詞信息熵，對待查錯文本中出現的重復字詞進行判斷的步驟。

作為優選的，所述對大規模訓練語料分詞后，統計得到訓練語料中包括重復字詞的二元組和三元組結構，及其出現的重復結合度、左上文鄰接詞信息熵及右下文鄰接詞信息熵的步驟中，包括如下步驟：

11)掃描訓練語料中的所有句子，得到所有包含重復字詞的二元組及三元組，并分別統計每一元組在訓練語料中出現的頻次；其中：

對于訓練語料中的某一句子S進行分詞得到S＝W₁…W_n，其中W_i為漢語詞典中的詞，1＝i＝n；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載