[發明專利]在保留交叉字符筆劃的同時去除文檔圖像中的下劃線和表格線有效
| 申請號: | 201410398898.2 | 申請日: | 2014-08-14 |
| 公開(公告)號: | CN104376318B | 公開(公告)日: | 2017-12-29 |
| 發明(設計)人: | 巫朝紅 | 申請(專利權)人: | 柯尼卡美能達美國研究所有限公司 |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46;G06K9/20 |
| 代理公司: | 北京市柳沈律師事務所11105 | 代理人: | 李芳華 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 保留 交叉 字符 筆劃 同時 去除 文檔 圖像 中的 下劃線 表格 | ||
1.一種用于處理包括沿第一方向延伸的直線的文檔圖像的方法,該方法包括:
(a)標識沿第一方向延伸的直線;
(b)計算用于該線的游程長度分布圖,該游程長度分布圖是作為沿著該線的第一方向的位置的函數的游程長度值,其中給定位置處的每一游程長度值是包括該線中的非白像素的、沿著與第一方向正交的第二方向延伸的多個連續非白像素;
(c)通過檢測該游程長度分布圖的第一類特性特征,來檢測該線的第一類交叉區域的集合,所述第一類特性特征中的每一個包括山谷、和在預定義距離內位于山谷兩側的兩個山峰,每一山峰和山谷的游程長度值之間的差大于第一閾值;
(d)通過檢測該游程長度分布圖的第二類特性特征,來檢測該線的第二類交叉區域的集合,所述第二類特性特征中的每一個包括其中游程長度值大于第二閾值的多個連續位置;和
(e)在保留所述第一和第二類交叉區域中的線的同時,去除所述第一和第二類交叉區域外的區域中的線。
2.根據權利要求1的方法,其中步驟(b)包括:
計算該線的中間軸;和
通過對與中間軸上的像素連接并沿著第二方向延伸的多個連續非白像素進行計數,來計算該中間軸的每一像素位置處的游程長度值。
3.根據權利要求1的方法,其中步驟(c)包括:
計算該游程長度分布圖的一階導數曲線;
檢測該一階導數曲線的向上過零點和向下過零點;和
通過匹配向上過零點和向下過零點,來標識所述第一類交叉區域。
4.根據權利要求1的方法,其中步驟(c)包括:
(c1)計算該游程長度分布圖的一階導數曲線d(i),其中i是第一方向上的位置;
(c2)檢測該一階導數曲線中滿足下式的向上過零點j:
d(j)≤0并且d(j+1)>0,以及
d(j+1)-d(j)>T1
其中T1是第三閾值,
(c3)檢測該一階導數曲線中滿足下式的向下過零點k:
d(k)≥0并且d(k+1)<0,以及
d(k)-d(k+1)>T2
其中T2是第四閾值,
(c4)標識所述第一類交叉區域的集合,在所述第一類交叉區域中的每一個中,兩個向下過零點位于向上過零點兩側的預定義距離內,并且向下過零點中的每一個和向上過零點之間的游程長度值之差大于第一閾值,其中第一類交叉區域被定義為兩個向下過零點之間的區域。
5.根據權利要求4的方法,其中,在步驟(c1)中,使用N點中心差來計算一階導數曲線:
d(i)=S(i+N)-S(i-N)
其中S是游程長度值并且N是預定數目。
6.根據權利要求5的方法,其中步驟(c)進一步包括:
(c5)使用不同N值重復步驟(c1),以計算該游程長度分布圖的另一一階導數曲線;
(c6)使用所述另一一階導數曲線重復步驟(c2)、(c3)和(c4),以標識第一類交叉區域的另一集合;和
(c7)組合在步驟(c4)標識的第一類交叉區域的集合和在步驟(c6)標識的第一類交叉區域的另一集合。
7.根據權利要求5的方法,進一步包括:在步驟(c2)之前,使得通過N點中心差計算的一階導數曲線平滑。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于柯尼卡美能達美國研究所有限公司,未經柯尼卡美能達美國研究所有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410398898.2/1.html,轉載請聲明來源鉆瓜專利網。





