[發明專利]基于中文分詞的中文校對糾錯方法及系統在審
| 申請號: | 201810601792.6 | 申請日: | 2018-06-12 |
| 公開(公告)號: | CN108717412A | 公開(公告)日: | 2018-10-30 |
| 發明(設計)人: | 竇志成;曾澤群;謝峰 | 申請(專利權)人: | 北京一覽群智數據科技有限責任公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京中建聯合知識產權代理事務所(普通合伙) 11004 | 代理人: | 劉湘舟 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 短句 糾錯 中文分詞 校對 中文 單字 工作效率 糾錯處理 中文文本 自動校對 文本庫 錯別字 拼音 預設 詞語 文本 | ||
本發明提出了一種基于中文分詞的中文校對糾錯方法及系統,所述方法包括以下步驟:對輸入的中文文本按單句進行中文分詞得到詞數組,所述詞數組包括單字、兩字、三字或四字詞語;對所述詞數組進行重組形成短句;判斷所述短句在預設文本庫中出現的次數是否大于第一閾值,若是,則將所述短句標記為正確;若否,則對所述短句進行字形及拼音糾錯處理。本發明實現了對文本中錯別字進行自動校對與糾錯,提升了中文校對糾錯的準確性及工作效率。
技術領域
本發明涉及文本校正的技術領域,特別涉及一種基于中文分詞的中文校對糾錯方法及系統。
背景技術
中文文字信息進入計算機主要通過四個途徑:即傳統的編碼錄入、光學掃描輸入、智能語音輸入和智能手寫輸入。目前上述四種輸入方式均無法確保進入計算機的文字信息完全正確。傳統的語言文字校對手段是人工文本校對,需要耗費大量的人力、物力和財力。雖然國外文本校對在英文的拼寫校對方面取得了一定成果,且部分成果實現了商業化,但由于在于中文語言結構的復雜性和詞語搭配的多樣性,同時結合語境使得字、詞和句變得錯綜復雜,因此,現有的技術延用到中文校對和糾錯上,效果不佳。
發明內容
本發明的目的是提出一種基于中文分詞的中文校對糾錯方法及系統,能對文本中錯別字進行自動校對與糾錯,提升中文糾錯的準確性及工作效率。
為達到上述目的,本發明提出了一種基于中文分詞的中文校對糾錯方法,包括以下步驟:
對輸入的中文文本按單句進行中文分詞得到詞數組,所述詞數組包括單字、兩字、三字或四字詞語;對所述詞數組進行重組形成短句;
判斷所述短句在預設文本庫中出現的次數是否大于第一閾值,
若是,則將所述短句標記為正確;若否,則對所述短句進行字形及拼音糾錯處理。
進一步,在上述的基于中文分詞的中文校對糾錯方法中,所述對輸入的中文文本按單句進行中文分詞得到詞數組的步驟包括:
對輸入的中文文本按句號及逗號進行拆分,形成獨立句子;
對所述獨立句子進行中文分詞得到詞數組,所述詞數組包括單字、兩字、三字或四字詞語。
進一步,在上述的基于中文分詞的中文校對糾錯方法中,所述對所述詞數組進行重組形成短句的步驟包括:
對所述詞數組按照預設字符串長度進行重組形成短句。
進一步,在上述的基于中文分詞的中文校對糾錯方法中,所述對所述詞數組進行重組形成短句的步驟還包括:
當判斷所述詞數組中含有常用字符時,跳過所述常用字符后再按照預設字符串長度進行重組形成短句。
進一步,在上述的基于中文分詞的中文校對糾錯方法中,所述預設文本庫為Solr文本庫。
進一步,在上述的基于中文分詞的中文校對糾錯方法中,所述對所述短句進行字形及拼音糾錯處理的步驟具體包括:
將所述短句的目標詞語根據其字符長度在預設詞庫中進行模糊匹配,得到跟所述目標詞語相似的備選詞語;
對所述備選詞語進行字形相似度檢驗;
獲取所述目標詞語中每個字的拼音,并組合成字符串進行拼音的相似度檢驗;
在判斷所述詞語相似度的值大于第二閾值以及所述詞語的統計詞頻大于第三閾值時,標記所述備選詞語為推薦詞語。
另,本發明還提供一種基于中文分詞的中文校對糾錯系統,包括:分詞單元、重組單元、判斷單元,標記單元及糾錯單元;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京一覽群智數據科技有限責任公司,未經北京一覽群智數據科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810601792.6/2.html,轉載請聲明來源鉆瓜專利網。





