[發(fā)明專利]基于能量最小化框架的文檔圖像傾斜度檢測(cè)與糾正方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310321375.3 | 申請(qǐng)日: | 2013-07-22 |
| 公開(公告)號(hào): | CN103400130A | 公開(公告)日: | 2013-11-20 |
| 發(fā)明(設(shè)計(jì))人: | 鄔向前;卜巍;唐有寶 | 申請(qǐng)(專利權(quán))人: | 哈爾濱工業(yè)大學(xué) |
| 主分類號(hào): | G06K9/32 | 分類號(hào): | G06K9/32 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區(qū)*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 能量 最小化 框架 文檔 圖像 傾斜度 檢測(cè) 糾正 方法 | ||
1.基于能量最小化框架的文檔圖像傾斜度檢測(cè)與糾正方法,該方法包括三個(gè)過程:
(1)計(jì)算前景像素狀態(tài)信息
在計(jì)算前景像素狀態(tài)信息之前,首先對(duì)掃描得到的文檔圖像進(jìn)行二值化,用黑色表示前景,白色表示背景像素,給定一個(gè)前二值文檔圖像I之后,前景像素的狀態(tài)計(jì)算過程如下:一個(gè)邊界框定義為一個(gè)文檔圖像的邊界,用P記作整個(gè)前景像素的集合,(W,H)記作文檔圖像I的大小,那么對(duì)每一個(gè)前景像素p∈P,它的狀態(tài)信息為sp=(xp,yp,wp,hp),其中xp,yp,wp,hp分別為p到圖像最左、最上、最右和最下邊的距離;
(2)利用直線擬合技術(shù)估算初始傾斜度
接下來利用文檔圖像中最外圍的前景像素的狀態(tài)信息來估算初始傾斜度,一個(gè)邊界框有四個(gè)邊:上、下、左和右,對(duì)每一邊都能得到其最外圍的前景像素狀態(tài)信息子集,用以下方式得到上邊最外圍前景像素狀態(tài)信息子集,記為
yi∈si∩yi=min{yp|yp∈sp∩xp∈sp∩xp=i}
將TS中每個(gè)元素的xp做為x坐標(biāo),yp作為y坐標(biāo)畫圖,圖中下面的點(diǎn)擬合成一條直線,邊界框剩下的三邊都經(jīng)過該處理,將使用直線擬合的技術(shù)來估算文檔圖像的初始傾斜度,在直線擬合之前先對(duì)TP進(jìn)行采樣,用如下方式將TP劃分為N個(gè)互不重疊的部分STSi:
N=32,接下來用如下方式構(gòu)建一個(gè)子集FTS,即計(jì)算每個(gè)部分STSi中yi最小的那個(gè)前景像素狀態(tài)信息:
yi∈si∩yi=min{yp|yp∈sp∩sp∈STSi}
進(jìn)行采樣操作完之后,需要通過以下方式進(jìn)一步消除沒用的狀態(tài)信息得到有效的用來進(jìn)行直線擬合的狀態(tài)信息VTS
然后采用窮舉搜索的方式在VTS中做直線擬合直到找到兩個(gè)狀態(tài)信息使得有最多的其他狀態(tài)信息到由這兩個(gè)狀態(tài)信息確定的直線之間的距離小于指定的閾值D;
對(duì)邊界框的四邊都進(jìn)行直線擬合之后得到四條直線,接下來就是找到擬合最好的那條直線,同時(shí)該直線對(duì)應(yīng)的傾斜角就是文檔圖像的初始傾斜角;用{lt,lb,li,lr}記作擬合的四條直線,{LSt,LSb,LSi,LSr}記作靠近相應(yīng)直線的狀態(tài)信息,要是某條直線對(duì)應(yīng)的狀態(tài)信息的個(gè)數(shù)小于M,在下面的操作中將不再考慮該直線,對(duì)每條直線li,計(jì)算所有直線狀態(tài)信息LSi和直線li之間的距離之和,然后用如下方式計(jì)算比值Ri:
其中f(·)計(jì)算一個(gè)集合中元素的個(gè)數(shù),{Rt,Rb,Ri,Rr}中的最小值對(duì)應(yīng)的直線就是最佳擬合的直線,最終最佳擬合的直線對(duì)應(yīng)的傾斜角就是文檔圖像的初始傾斜角,其中D=5,M=5;
(3)使用能量最小化過程計(jì)算最終傾斜度
得到初始傾斜角之后,然后用能量最小化過程計(jì)算最終傾斜角,如下式所示:
該過程包括能量函數(shù)構(gòu)建和能量最小化兩個(gè)步驟,如下式所示:
E(S)=ωEB(S)+(1-ω)EF(S)??????(7)
ω=0.98,其中EB(S)考慮了全局背景信息,如下式所示:
設(shè)置和φ(·)為:
Yi={sp|sp∈S∩yp∈sp∩yp=i}?????(9)
Xj={sp|sp∈S∩xp∈sp∩xp=j(luò)}
其中Sgn(·)是一個(gè)符號(hào)函數(shù),定義為:
EF(S)反應(yīng)了全局的前景信息,如下式所示:
EF(S)=δ(S)+λ(S)??????(11)
設(shè)置δ(·)和λ(·)為:
其中MY=max{f(Yi)|Yi∈Y},MX=max{f(Xi)|Xi∈X},且f(·)計(jì)算一個(gè)集合中元素的個(gè)數(shù);
構(gòu)造完能量函數(shù)以后,根據(jù)直線擬合得到的初始傾斜角和所有前景像素的狀態(tài)信息,通過反復(fù)地計(jì)算能量函數(shù)和旋轉(zhuǎn)前景像素的狀態(tài)信息,找到使得能量函數(shù)值最小時(shí)所旋轉(zhuǎn)的角度,這個(gè)角度就是最終的傾斜角;
狀態(tài)信息的旋轉(zhuǎn)過程如下:
S′=rotate(S,θ)?????(13)
其中rotate(·)計(jì)算每個(gè)前景像素的狀態(tài)信息sp∈S旋轉(zhuǎn)后的結(jié)果sp′,計(jì)算過程如下:
wp′=W-xp′,hp′=H-yp′
。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué),未經(jīng)哈爾濱工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310321375.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





