[發明專利]文字行提取方法和裝置有效
| 申請號: | 201010568411.2 | 申請日: | 2010-11-30 |
| 公開(公告)號: | CN102063619A | 公開(公告)日: | 2011-05-18 |
| 發明(設計)人: | 李永彬 | 申請(專利權)人: | 漢王科技股份有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文字 提取 方法 裝置 | ||
1.一種文字行提取方法,其特征在于,包括如下步驟:
步驟一:對全景二值圖像中的各連通域進行統計,得到字符寬度和字符高度,根據字符寬度和字符高度對各連通域進行合并,得到第一尺度塊;
步驟二:將得到的第一尺度塊進行排序,得到各第一尺度塊間的參考水平間距,根據參考水平間距將各第一尺度塊進行合并得到第二尺度塊;
步驟三:將得到的第二尺度塊進行排序,得到各第二尺度塊間的第二參考水平間距,根據第二參考水平間距將各第二尺度塊進行合并得到第三尺度塊;
步驟四:將得到的第三尺度塊進行排序,排序后將第三尺度塊左右兩端既定數目的第一尺度塊作延長線,根據延長線將各第三尺度塊合并為文字行。
2.根據權利要求1所述的方法,其特征在于:所述步驟一之前還包括:
步驟a:標記全景二值圖像中的連通域,統計各連通域的高度得到全景二值圖像中的平均字符高;
步驟b:去除全景二值圖像邊緣處高度小于平均字符高既定比例的連通域。
3.根據權利要求1所述的方法,其特征在于:所述步驟一中對全景二值圖像中的各連通域進行統計時,按各連通域的寬度值統計對應的連通域個數,按寬度值從大到小的順序將其對應的連通域個數加和,取加和大于等于連通域總數的五分之一時對應的寬度值作為字符寬度。
4.根據權利要求1所述的方法,其特征在于:所述步驟一中對全景二值圖像中的各連通域進行統計時,按各連通域的高度值統計對應的連通域個數,按高度值從大到小的順序將其對應的連通域個數加和,取加和值大于等于連通域總數的五分之一時對應的高度值作為字符高度。
5.根據權利要求1所述的方法,其特征在于:所述步驟一之后還包括:去除小于字符高度二分之一的第一尺度塊。
6.根據權利要求1所述的方法,其特征在于:所述步驟二的參考水平間距為兩相鄰的第一尺度塊間的水平間距的中值。
7.根據權利要求1所述的方法,其特征在于:所述步驟二中將各第一尺度塊進行合并得到第二尺度塊時,依次遍歷各第一尺度塊,將未經合并的當前第一尺度塊作為第二尺度塊,并將滿足既定條件的未經合并的第一尺度塊合并到所述第二尺度塊。
8.根據權利要求7所述的方法,其特征在于:所述既定條件為第二尺度塊與相鄰的第一尺度塊在豎直方向有交疊,且交疊高度大于等于兩者中高度較小者的三分之一,且第二尺度塊與相鄰的第一尺度塊的水平間距小于等于2倍參考水平間距且大于等于負的字符寬度的三分之一。
9.根據權利要求1所述的方法,其特征在于:所述步驟三的第二參考水平間距為兩相鄰的第二尺度塊間的小于2倍字符寬度的水平間距的中值。
10.根據權利要求1所述的方法,其特征在于:所述步驟三中將各第二尺度塊進行合并得到第三尺度塊時,依次遍歷各第二尺度塊,將未經合并的當前第二尺度塊作為第三尺度塊,并將滿足第二既定條件的未經合并的第二尺度塊合并到所述第三尺度塊。
11.根據權利要求10所述的方法,其特征在于:所述第二既定條件為第三尺度塊與相鄰的第二尺度塊在豎直方向有既定高度的交疊;且第三尺度塊與相鄰的第二尺度塊的水平間距大于零、小于等于2倍第二參考水平間距。
12.根據權利要求10所述的方法,其特征在于:所述步驟三還包括對得到的第三尺度塊進行驗證,如果與當前第二尺度塊相鄰的、與合并方向相反的第二尺度塊和當前第二尺度塊在豎直方向有高度大于既定高度的交疊,且兩相鄰的第二尺度塊的水平間距不大于2倍水平間距,則當前第二尺度塊不能合并至第三尺度塊中,當前第三尺度塊結束合并。
13.根據權利要求1所述的方法,其特征在于:所述步驟四中的延長線分別由位于第三尺度塊中最左側既定數目的第一尺度塊和最右側的既定數目的第一尺度塊生成,通過提取各第一尺度塊的中心點坐標用最小二乘法擬合得到。
14.根據權利要求13所述的方法,其特征在于:所述步驟四中的既定數目為三個及三個以上。
15.根據權利要求1所述的方法,其特征在于:所述步驟四中根據延長線合并為文字行包括:依次遍歷含有既定數目的第一尺度塊的各第三尺度塊,將未經合并的當前第三尺度塊作為文字行,把滿足第三既定條件的未經合并的第三尺度塊合并到所述文字行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于漢王科技股份有限公司,未經漢王科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010568411.2/1.html,轉載請聲明來源鉆瓜專利網。





