[發明專利]基于中文分詞的中文校對糾錯方法及系統在審
| 申請號: | 201810601792.6 | 申請日: | 2018-06-12 |
| 公開(公告)號: | CN108717412A | 公開(公告)日: | 2018-10-30 |
| 發明(設計)人: | 竇志成;曾澤群;謝峰 | 申請(專利權)人: | 北京一覽群智數據科技有限責任公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京中建聯合知識產權代理事務所(普通合伙) 11004 | 代理人: | 劉湘舟 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 短句 糾錯 中文分詞 校對 中文 單字 工作效率 糾錯處理 中文文本 自動校對 文本庫 錯別字 拼音 預設 詞語 文本 | ||
1.基于中文分詞的中文校對糾錯方法,其特征在于,所述方法包括以下步驟:
對輸入的中文文本按單句進行中文分詞得到詞數組,所述詞數組包括單字、兩字、三字或四字詞語;對所述詞數組進行重組形成短句;
判斷所述短句在預設文本庫中出現的次數是否大于第一閾值,
若是,則將所述短句標記為正確;若否,則對所述短句進行字形及拼音糾錯處理。
2.根據權利要求1所述的基于中文分詞的中文校對糾錯方法,其特征在于,所述對輸入的中文文本按單句進行中文分詞得到詞數組的步驟包括:
對輸入的中文文本按句號及逗號進行拆分,形成獨立句子;
對所述獨立句子進行中文分詞得到詞數組,所述詞數組包括單字、兩字、三字或四字詞語。
3.根據權利要求1所述的基于中文分詞的中文校對糾錯方法,其特征在于, 所述對所述詞數組進行重組形成短句的步驟包括:
對所述詞數組按照預設字符串長度進行重組形成短句。
4.根據權利要求3所述的基于中文分詞的中文校對糾錯方法,其特征在于,所述對所述詞數組進行重組形成短句的步驟還包括:
當判斷所述詞數組中含有常用字符時,跳過所述常用字符后再按照預設字符串長度進行重組形成短句。
5.根據權利要求4所述的基于中文分詞的中文校對糾錯方法,其特征在于,所述預設文本庫為Solr文本庫。
6.根據權利要求1所述的基于中文分詞的中文校對糾錯方法,其特征在于,所述對所述短句進行字形及拼音糾錯處理的步驟具體包括:
將所述短句的目標詞語根據其字符長度在預設詞庫中進行模糊匹配,得到跟所述目標詞語相似的備選詞語;
對所述備選詞語進行字形相似度檢驗;
獲取所述目標詞語中每個字的拼音,并組合成字符串進行拼音的相似度檢驗;
在判斷所述詞語相似度的值大于第二閾值以及所述詞語的統計詞頻大于第三閾值時,標記所述備選詞語為推薦詞語。
7.一種基于中文分詞的中文校對糾錯系統,其特征在于,所述系統包括:分詞單元、重組單元、判斷單元,標記單元及糾錯單元;
所述分詞單元用于對輸入的中文文本按單句進行中文分詞得到詞數組,所述詞數組包括單字、兩字、三字或四字詞語;所述重組單元用于對所述詞數組進行重組形成短句;所述判斷單元用于判斷所述短句在預設文本庫中出現的次數是否大于第一閾值;所述標記單元用于在判斷所述短句在預設文本庫中出現的次數大于第一閾值時,將所述短句標記為正確;所述糾錯單元用于在判斷所述短句在預設文本庫中出現的次數不大于第一閾值時,對所述短句進行字形及拼音糾錯處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京一覽群智數據科技有限責任公司,未經北京一覽群智數據科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810601792.6/1.html,轉載請聲明來源鉆瓜專利網。





