[發明專利]文字校對方法和裝置有效
| 申請號: | 201010266100.0 | 申請日: | 2010-08-27 |
| 公開(公告)號: | CN102375807A | 公開(公告)日: | 2012-03-14 |
| 發明(設計)人: | 劉正珍;高書征 | 申請(專利權)人: | 漢王科技股份有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/30;G06K9/20 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文字 校對 方法 裝置 | ||
1.一種文字校對方法,其特征在于,包括:
收集對文字進行校對的修改信息;
根據所述修改信息建立易錯詞表;
根據易錯詞表查找文字中的可疑字并進行提示。
2.根據權利要求1所述的方法,其特征在于,根據所述修改信息建立易錯詞表包括:
建立語言模型,所述語言模型包括不同文字組合成一個詞使用的概率;
結合語言模型查找修改信息中用于對目標字符進行修正的更新字符與前后相鄰字組合成的詞中使用概率最高的詞,用目標字符替換使用概率最高的詞中的更新字符后將該使用概率最高的詞存入易錯詞表,并將所述目標字符作為與該詞對應的可疑字存入易錯詞表。
3.根據權利要求2所述的方法,其特征在于,結合語言模型查找修改信息中用于對目標字符進行修正的更新字符與前后相鄰字組合成的詞中使用概率最高的詞時,如果連續修改兩個或者兩個以上字,查找更新字符與前后相鄰沒有修改過的字組合成的詞中,使用概率最高的兩個或者兩個以上詞,將上述詞用目標字符替換更新字符,連同所述目標字符作為與該詞對應的可疑字存入易錯詞表。
4.根據權利要求2所述的方法,其特征在于,根據所述修改信息建立易錯詞表還包括:
設定常用詞概率閾值;
如果存入易錯詞表的詞使用概率超過所述常用詞概率閾值,刪除所述存入易錯詞表的詞及對應的可疑字。
5.根據權利要求2所述的方法,其特征在于,易錯詞表結構采用哈希表結構或者漢字內碼運算作為位置索引的數組結構。
6.根據權利要求2所述的方法,其特征在于,所述語言模型由已經校對過的文本或者本語言其他可靠語料構建。
7.根據權利要求1所述的方法,其特征在于,還包括:
結合修改信息從二值化的單頁整幅文本圖像中提取易錯形似字圖像,整理成易錯形似字集;
對所述易錯形似字集進行圖像聚類;
統計圖像聚類后每一類易錯形似字集中的每種更新字符的修改記錄數量,以及每一類易錯形似字集中每種字的文字識別結果數量;
將圖像聚類后每一類易錯形似字集中修改記錄最多的一種更新字符作為該類的標準字,若沒有修改記錄則取文字識別結果最多的字作為標準字;
對每一類易錯形似字集中當前結果與標準字不同的易錯形似字進行提示。
8.根據權利要求7所述的方法,其特征在于,結合修改信息從二值化的單頁整幅文本圖像中提取易錯形似字圖像,整理成易錯形似字集包括:
對文本圖像中每個字符圖像進行OCR識別;
如果某個字符圖像的OCR識別結果的候選字中出現修改信息中目標字符,將該字符圖像作為其對應的修改后字的易錯形似字圖像保存到其對應的易錯形似字集中。
9.根據權利要求7所述的方法,其特征在于,對所述易錯形似字圖像集進行圖像聚類包括:
提取易錯形似字集中每個字符圖像多維的方向線素特征;
根據每個字符圖像多維的方向線素特征,通過最大最小距離法對字符圖像進行圖像聚類。
10.根據權利要求9所述的方法,其特征在于,對所述易錯形似字集進行圖像聚類還包括:
聚類前統計易錯形似字集中文字內碼類別,得到實際類別數,將圖像聚類的最大類別數設定為實際類別數的一倍以上。
11.一種文字校對裝置,其特征在于,包括:
修改統計模塊:用于收集對文字進行校對的修改信息;
易錯詞表建立模塊:用于根據所述修改信息建立易錯詞表;
易錯詞表報警模塊:用于根據易錯詞表查找文字中的可疑字并進行提示。
12.根據權利要求11所述的裝置,其特征在于,還包括:
易錯形似字集建立模塊:用于結合修改信息從二值化的單頁整幅文本圖像中提取易錯形似字圖像,整理成易錯形似字集;
圖像聚類模塊:用于對所述易錯形似字集進行圖像聚類;
統計模塊:用于統計圖像聚類后每一類易錯形似字集中的每種更新字符的修改記錄數量,以及每一類易錯形似字集中每種字的文字識別結果數量;
標準字選取模塊:用于將圖像聚類后每一類易錯形似字集中修改記錄最多的一種更新字符作為該類的標準字,若沒有修改記錄則取文字識別結果最多的字作為標準字;
圖像聚類報警模塊:用于對每一類中當前結果與標準字不同的易錯形似字進行報警。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于漢王科技股份有限公司,未經漢王科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010266100.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:輪胎模具橫向氣孔加工設備
- 下一篇:一種單張紙自動模切機的叼紙牙排的驅動機構





