[發明專利]一種字詞重復錯誤的自動識別方法在審
| 申請號: | 202010576591.2 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111709228A | 公開(公告)日: | 2020-09-25 |
| 發明(設計)人: | 王海濤;曹馨宇;劉亮亮;周長青 | 申請(專利權)人: | 中國標準化研究院 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/242;G06F40/284 |
| 代理公司: | 南京泉為知識產權代理事務所(特殊普通合伙) 32408 | 代理人: | 許丹丹 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 字詞 重復 錯誤 自動識別 方法 | ||
本發明公開了一種字詞重復錯誤的自動識別方法,其包括如下步驟:對大規模訓練語料分詞后,統計得到訓練語料中包括重復字詞的二元組和三元組結構,及其出現的重復結合度、左上文鄰接詞信息熵及右下文鄰接詞信息熵的步驟;統計并收錄漢語詞典中的包含重復字的詞并建立漢語詞典重復字詞庫的步驟;基于漢語詞典中的重復字詞對待查錯文本中出現的重復字詞進行判斷的步驟;基于統計得到的重復結合度、左上文鄰接詞信息熵及右下文鄰接詞信息熵,對待查錯文本中出現的重復字詞進行判斷的步驟。本發明可快速判斷識別出該重復字詞是否為收錄于詞典中的重復字詞,且能有效判斷出是否為非詞典但屬于日常用語中的重復字詞,判斷識別快速、綜合,實用性高。
技術領域
本發明涉及一種自然語言處理方法,具體涉及中文自動校對領域中字詞重復錯誤的發現方法。
背景技術
在大數據時代,文本數據越來越多,而文本中的錯誤也越來越多,其中字詞重復錯誤(又稱插入錯誤)。而在漢語中,有些詞是可以重復出現的,比如說“研究研究”,但是有些是不能重復出現的,如“道歉道歉”、“的的”,一旦出現就是重復錯誤。
如何自動發現文本中出現的字詞重復錯誤,是中文文本自動校對的研究內容之一。
而漢語中存在這種合理重復字詞的現象,因此簡單的判斷重復詞語會帶來很多的誤判,而現在大部分的中文文本自動校對中對于字詞重復錯誤沒有單獨來進行處理,只是簡單的利用字詞的二元或三元的信息來判斷是否出錯。而重復出現的字詞大部分都不是詞典中的詞,更多是一種日常用語中的常見語言現象,因此如何提供一種方法,可以來判斷字詞中的重復錯誤,且準確高效,這一問題亟待解決。
發明內容
發明目的:為了解決現有技術中的不足,本發明的目的是提供一種字詞重復錯誤的自動識別方法。
技術方案:為解決上述技術問題,本發明提供的一種字詞重復錯誤的自動識別方法,其包括如下步驟:
對大規模訓練語料分詞后,統計得到訓練語料中包括重復字詞的二元組和三元組結構,及其出現的重復結合度、左上文鄰接詞信息熵及右下文鄰接詞信息熵的步驟;
統計并收錄漢語詞典中的包含重復字的詞并建立漢語詞典重復字詞庫的步驟;
基于漢語詞典中的重復字詞對待查錯文本中出現的重復字詞進行判斷的步驟;
基于統計得到的重復結合度、左上文鄰接詞信息熵及右下文鄰接詞信息熵,對待查錯文本中出現的重復字詞進行判斷的步驟。
作為優選的,所述對大規模訓練語料分詞后,統計得到訓練語料中包括重復字詞的二元組和三元組結構,及其出現的重復結合度、左上文鄰接詞信息熵及右下文鄰接詞信息熵的步驟中,包括如下步驟:
11)掃描訓練語料中的所有句子,得到所有包含重復字詞的二元組及三元組,并分別統計每一元組在訓練語料中出現的頻次;其中:
對于訓練語料中的某一句子S進行分詞得到S=W1…Wn,其中Wi為漢語詞典中的詞,1=i=n;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國標準化研究院,未經中國標準化研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010576591.2/2.html,轉載請聲明來源鉆瓜專利網。





