[發明專利]基于Harris角點和筆畫寬度的文字區域檢測方法有效
| 申請號: | 201510407779.3 | 申請日: | 2015-07-13 |
| 公開(公告)號: | CN105205488B | 公開(公告)日: | 2018-07-24 |
| 發明(設計)人: | 蔣曉悅;連潔;馮曉毅;李會方;吳俊;謝紅梅;何貴青;夏召強 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 顧潮琪 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 harris 筆畫 寬度 文字 區域 檢測 方法 | ||
1.一種基于Harris角點和筆畫寬度的文字區域檢測方法,其特征在于包括下述步驟:
步驟1:邊緣增強的Harris角點檢測
假設原灰度圖像為I,
(1.1)用canny算子對原灰度圖像I進行邊緣檢測得到邊緣圖像Iedge,之后按下式計算得到圖像I':
I'=I+nedge*Iedge (1)
其中nedge為邊緣圖像Iedge的放大倍數,取值范圍為80~120,然后代入下式:
I”(i,j)=I'(i,j)/I'MAX*256 (2)
其中I'(i,j)為圖像I'中點(i,j)處的像素值,I'MAX為圖像I'中所有像素點的最大值,式(2)可確保更新后的圖像I”中各像素點的取值范圍在[0,255]之間;
(1.2)利用Harris角點檢測算法得到圖像的角點響應:
首先通過卷積運算求取圖像每一點的水平和垂直方向導數IX、IY:
然后采用高斯窗函數濾波器Wu,v對圖像的方向導數進行濾波:
其中,u、v分別為濾波器模板的長和寬,δ為濾波器的平滑程度參數,其中,高斯濾波模版參數為u=7,v=7,δ=2;
按照公式(5)為圖像中每一個點計算局部自相關矩陣:
其中IX、IY分別為圖像上一點的按照公式(3)、(4)計算出的水平和垂直方向導數,最后計算角點響應corness:
corness=det(M)-K*trace(M)2 (7)
其中,trace(M)為矩陣的跡,det(M)為矩陣M的行列式值,K為一個經驗常數,取值范圍為0.04~0.06,根據公式(7)計算出圖像I”中各點的角點響應值后,對每一點(i,j)的角點響應值進行公式(8)和(9)的計算:
K1:{cornessi,j>0.1*cornessmax且cornessi,j為其八連通區域內的極大值} (9)
其中,pix(i,j)為像素點(i,j)處的像素值,cornessi,j為由公式(7)計算出的像素點(i,j)處的角點響應值,cornessmax為圖像I”中各像素點根據公式(7)計算出的角點響應的最大值,K1為局部極值點的篩選條件;當點(i,j)的角點響應值cornessi,j大于圖像I”中各像素點的角點響應值的最大值cornessmax的0.1倍,且點(i,j)的角點響應值還是其所在八領域的角點響應值的極大值時,將點(i,j)的像素值置為1,否則為0,則最終像素值為1的像素點成為圖像的角點;
為確保文字區域擁有較高的角點密度,進行角點聚類,將與角點的歐式距離小于3的點同樣標記為角點;
(1.3)得到圖像的角點響應后,我們按照公式(10)~(13)對圖像進行行掃描以確定文字可能出現的水平候選區域,然后再按照公式(14)~(17)對候選區域進行列掃描以確定文字區域的準確位置;在行掃描中,兼顧計算效率,利用寬度與圖像寬度一致,高度為圖像I”中像素高度4倍的的矩形窗Ri,其中i為矩形窗的編號,i依次取1至X之間的全部整數且包含兩個端點,其中X為I”的寬度除以4后的值取下整,則第i個矩形窗Ri的起始行為圖像I”的第(4*(i-1)+1)行,遍歷i的取值就做到了自上而下逐塊檢測圖像I”,統計矩形窗Ri中角點響應為“1”的點的個數cnti,并與行檢測閾值cnt*0.1比較,其中cnt為圖像I”的角點總數,當相鄰矩形窗內的角點數目滿足:
K2:{cnti-1<cnt*0.1,cnti>cnt*0.1} (11)
其中K2為矩形窗包含文字區域上邊界的判定條件,由于采用的是高度為圖像I”中像素高度4倍的矩形窗進行圖像掃描,因此,如果第i個矩形窗包含了文字區域的上邊界,該矩形窗的起始行在圖像I”中的行坐標為(4*(i-1)+1),將第i個矩形窗的起始行定義為文字區域的上邊界,得到文字區域的上邊界坐標(4*(i-1)+1);
(1.4)對圖像I”中與Ri大小完全相同的矩形窗Rj采用和步驟(1.3)中相同的掃描方式進行掃描,即將j遍歷區間[1,X]的全部整數,對每一個取值不同的j進行公式(12),(13)的計算:
K3:{cntj>cnt*0.1,cntj+1<cnt*0.1} (13)
其中,公式K3為矩形窗包含文字區域下邊界的判定條件,由于采用的圖像掃描矩形窗高度為4,因此,如果第j個矩形窗包含了文字區域的下邊界,那么該矩形窗的下邊界在圖像I”中的行坐標為(4*j),將第j個矩形窗的下邊界定義為文字區域的下邊界,得到文字區域的下邊界坐標(4*j);
(1.5)確定了圖像I”中文字所在的候選行區域之后,在候選行區域中通過列掃描進一步確定文字的列位置,具體步驟如下:
用寬度為圖像I”中像素寬度的25倍,高度與由步驟(1.3)計算出的上邊界和(1.4)計算出的下邊界劃定的文字候選行高度一致的矩形窗Ri'在文字候選行中逐塊掃描,其中i’依次取1至Y之間的全部整數且包含兩個端點,其中Y為圖像I”的寬度除以25后取下整,則第i’個矩形窗Ri'的左邊界在圖像I”中的列坐標為(25*(i'-1)+1),遍歷i’的取值范圍并且對每一個取值不同的i’進行公式(14),(15)的計算:
K4:{cnti'-1<cnt*0.01,cnti'>cnt*0.01} (15)
公式K4為判斷矩形窗Ri'是否包含文字區域左邊界的條件,如果第i’個矩形窗包含了文字區域的左邊界,則該矩形窗的左邊界在圖像I”中的列坐標為(25*(i'-1)+1),將第i’個矩形窗的左邊界定義為文字區域的左邊界,得到文字區域的左邊界(25*(i'-1)+1);
(1.6)對圖像I”中與Ri'大小完全相同的矩形窗Rj'采用和步驟(1.5)中相同的掃描方式進行掃描,即將j’遍歷取值區間[1,Y]的全部整數,對每一個取值不同的j’進行公式(16),(17)的計算:
K5:{cntj'>cnt*0.01,cntj'+1<cnt*0.01} (17)
公式K5為判定矩形窗是否包含文字區域右邊界的條件,如果第j’個矩形窗包含了文字區域的右邊界,由于采用的圖像列掃描矩形窗寬度為圖像I”中像素寬度的25倍,則該矩形窗的右邊界在圖像I”中的列坐標為(25*j'),將第j’個矩形窗的右邊界定義為文字區域的右邊界,得到文字區域的右邊界(25*j');
步驟2:依據筆畫寬度篩選候選區域部分
(2.1)用同步驟1中角點檢測算法得到候選文字區域;
(2.2)對滿足角點響應的區域依次進行筆畫寬度檢測:
首先將圖像I”中各像素點的筆畫寬度值初始化為正無窮,之后逐一處理由步驟1得到的候選文字區域,恢復區域中文字的真實筆畫寬度,即對任一角點響應區域H利用canny算子進行邊緣檢測,得到邊緣點p的梯度方向dp;如該邊緣點p同時也是文字筆畫的邊緣,那么其梯度方向dp與該處文字筆畫方向的垂直方向的絕對誤差小于π/6,然后沿著p+n*dp,(n=1,2,3Kn>0,初值為1)的方向尋找另一個邊緣點q,計算q點的梯度方向dq,如果dq與dp的方向滿足條件dq=-dp±(π/6),則將[p,q]連線上的每一個像素點的筆畫寬度值置設為如果沒有符合dq=-dp±(π/6)條件的q點,那么放棄該搜索方,并將n取值加1,更新搜索方向計算公式p+n*dp,沿著新方向再次尋找符合dq=-dp±(π/6)條件的q點,逐一增加n的取值,直到邊緣點q找到或者搜索區域超出H的范圍,如果由于方向計算公式p+n*dp的更新,使得區域H內同一個像素點擁有多個不同的筆畫寬度值,則選擇不同筆畫寬度值中的最小值作為該像素點的筆畫寬度值;
當檢測完區域H內所有的邊緣點后,將計算結果中取值非無窮的點進行連通區域合并,得到多個連通區域wi,定義連通區域集合為W,有wi∈W,統計各連通區域wi內各像素點的筆畫寬度值swtipix,用區域wi內各像素點的筆畫寬度的眾數代表該區域的筆畫寬度值swtwi,即
swtwi=mode(swtipix,ipix∈wi) (18)
其中,ipix用于標定聯通區域wi中所包含的各個像素點,當出現某一連通區域內各像素點的筆畫寬度值均不同時,說明該連通區域為虛警,標注該區域的筆畫寬度值為無窮;
求得角點響應區域H內各連通區域wi的筆畫寬度值后,如果區域H是文字區域,那么它包含的各連通區域應該屬于同一字符或者同一文字行,即各連通區域的筆畫寬度swtwi的方差,即var(swtwi),wi∈W,應小于閾值Tswt,其中Tswt的取值范圍為50~80,僅當計算結果低于上限Tswt時保留該區域;
步驟3:基于文字顏色的區域膨脹部分
(3.1)用同步驟1,步驟2中文字檢測算法得到候選文字區域;
(3.2)如角點響應發生在文字的內部,即檢測到的區域會包含截斷的文字,為了得到完整的文字,利用同一文字區域顏色一致的特性,在篩選后的文字區域內,逐區域進行膨脹運算,具體步驟如下:
由于文字邊緣的顏色與背景顏色接近,因此選擇提取靠近文字中心的像素點的顏色,即提取區域內屬于角點響應但不屬于canny邊緣響應點的RGB值,對其使用K-means聚類算法聚為一類,聚類中心即該處文字的顏色,即RH,GH,BH;之后檢測該區域上邊界的相鄰行,不屬于文字區域的一側,對該行內各像素點依次進行下列計算:
其中pi表示該行第i個像素點的取值,分別表示該行第i個像素點對應原圖像中相同位置點的紅、綠、藍三通道的分量值,H表示當前處理的文字區域,Tcolor為判斷顏色是否相似的閾值,Tcolor的取值范圍為20~25,當該行滿足公式(21)時,將其合并入文字區域中:
pixnumRGB/pixnumline≥0.1 (21)
其中,pixnumline表示該行的總像素個數,pixnumRGB表示該行中滿足公式(20)的像素點個數,合并之后,對該文字區域的其余三個邊界做相同的運算處理,即可得到圖像中的文字區域。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510407779.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于EMD-ELM的非平穩脈動風速預測方法
- 下一篇:一種車標識別方法及裝置





