[發明專利]基于超像素的筆畫特征變換和深度學習的區域分類的場景文本檢測方法有效
| 申請號: | 201810103800.4 | 申請日: | 2018-02-01 |
| 公開(公告)號: | CN108345850B | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 鄔向前;卜巍;唐有寶 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20;G06K9/34;G06K9/46;G06K9/62;G06K9/66 |
| 代理公司: | 哈爾濱龍科專利代理有限公司 23206 | 代理人: | 高媛 |
| 地址: | 150000 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 像素 筆畫 特征 變換 深度 學習 區域 分類 場景 文本 檢測 方法 | ||
1.一種基于超像素的筆畫特征變換和深度學習的區域分類的場景文本檢測方法,其特征在于所述方法步驟如下:
一、字符區域提取
(一)基于超像素的筆畫特征變換
(1)超像素分割和聚類
a、將輸入圖像I∈RM×N調整到一個固定的高度h,并保持其縱橫比,當高度大于h時,使用邊緣保持過濾器平滑,圖像被分割成K個超像素,使用線性迭代聚類算法使其在組合的顏色和圖像平面空間中聚集像素,定義超像素S的顏色描述符如下:
f=(r,g,b,l,a,b,h,s,v);
式中,(r,g,b)、(l,a,b)和(h,s,v)分別是在RGB、CIELab和HSV顏色空間中像素的值,將每個分量線性歸一化到[0,1]之間;
b、用每對超像素之間的歐氏距離構造距離矩陣,基于此距離矩陣,利用平均鏈路層次聚類算法對超像素進行聚類,將原始圖像分成不同的區域;
(2)刪除背景區域
a、給定一個圖像I∈RM×N,通過應用結構化隨機決策林預測局部邊緣,直接提取邊緣概率圖EPM∈[0,1]M×N和一個漸變方向圖GOM∈[-π,π]M×N,其中每個像素的值分別表示其在原始圖像中作為邊緣點及其漸變方向的概率;
b、將非極大值抑制應用到有像素的梯度方向的EPM,然后用一個低的閾值進行二值化,提取I的邊緣圖像E;
c、利用距離變換對邊緣圖像E進行歐氏距離計算得到I的距離映射,并以DM表示;
d、定義R和(w,h)表示一個區域及其邊界矩形的大小,#(R)表示R中像素的個數,sum(DMp)和#(P)表示從距離映射DM獲得的R邊界上的像素距離值的總和以及R的邊界上的像素數目,sum(DMp)/#(P)是從R邊界上的像素到邊緣的平均距離;
e、使用步驟d中的定義,場景中的字符的以下先驗用于刪除大部分背景區域:
①如果是字符區域,w/M和h/N不應超過閾值;
②應該超過一個閾值;
③
如果一個區域不能滿足①-③規則中的一個,就被視為一個背景區域;在對所有區域應用以上規則之后,大部分的背景區域被刪除掉;
(二)基于深度學習的候選字符區域分類
(1)特征提取
a、顏色特征
根據候選區域及其邊界矩形區域計算以下三個顏色特征向量:
第一個顏色特征向量由RGB、CIELab和HSV顏色空間中候選區域的平均顏色組成,它是一個9維顏色特征向量;
第二個顏色特征向量是從CIELab顏色空間中的候選字符區域CCR計算出的顏色分布的48維直方圖,即48維顏色特征向量;
第三個顏色特征向量是在CCR的邊界矩形區域中的背景區域計算出的顏色分布的48維直方圖,即48維顏色特征向量;
b、紋理特征
利用梯度直方圖捕獲區域的外觀特征;
c、幾何特征
提取以下幾何特征區分字符區域和背景:
1)候選區域的像素數與候選區域邊界框的面積之比;
2)候選區域邊界框的縱橫比:
3)候選區域邊界框的寬度和高度與輸入圖像的寬度和高度的比值;
4)圖像邊界上的CCR的像素數與CCR的輪廓上的像素總數之比;
5)CCR中像素的描邊寬度的平均值和方差;
d、深層特征
使用用于深度特征提取的CNN從CCRs的邊界矩形區域中學習深層的高級特征;
(2)特征融合
a、對于手工設計的特征融合,即顏色特征、紋理特征和幾何特征的融合,首先將每個特征線性地標準化到[0,1],然后將它們輸入一個由兩個分別有256個節點和128個節點的fc層和一個softmax層組成的用于手工設計的特征融合的全連接網絡訓練,訓練之后,將最后fc層的128個輸出作為初始融合特征;
b、將深層特征和初始融合特征連接起來,并將它們的組件線性標準化到[0,1],然后將它們放入具有512和256個節點的fc層和一個softmax層構成的用于融合初始融合特征和深度特征的全連接網絡中訓練,訓練之后,使用最后fc層的輸出作為最后融合特征,在測試階段代表每個輸入圖像的特征;
c、將訓練的模型作為初始權重,共同訓練用于深度特征提取的CNN、用于手工設計的特征融合的全連接網絡和用于融合最初的融合特征和深度特征的全連接網絡;
(3)區域分類
利用隨機森林回歸對訓練數據集進行訓練;
二、文本區域檢測
(1)候選文本區域生成
給定一組從輸入圖像中提取的字符區域,其邊界框表示為bi’=(xi’,yi’,wi’,hi’),i=1,2,..,m,m是框的數量,(xi’,yi’)和(wi’,hi’)是左上角點的坐標和bi’的尺寸,坐標的原點是圖像的左上角;
按照以下步驟生成候選文本區域:
a、找到最左側未處理的框Bl’;
b、獲得一組基于B1=Bl’的框B,通過迭代尋找框Bj=(xj,yj,wj,hj),它最接近Bj-1且滿足以下條件:
yj-1-hj<yj<yj-1+hj-1;
c、計算B中相鄰框Bj和Bj+1之間的距離:
dj,j+1=xj+1-xj-wj,if#(B)≥2;
其中,#(B)表示B中的方框數;
d、根據B中方框的數量生成文本區域:
1)當#(B)=1時,直接將B1的相應CCR設置為CTR,CTR包含不同數量的CCR;
2)當#(B)=2時,如果d1,2(h1+h2)/2,設置B1和B2相應的CCRs為兩個CTR;否則,把它們作為一個CTR;
3)當#(B)2時,找到滿足如下距離條件的相鄰框Bj和Bj+1:
然后將它們設置為B上的分割點以生成CTRs;
e、重復步驟a到步驟d,直到處理完所有的框。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810103800.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種面部識別方法及其設備
- 下一篇:一種基于人臉識別分析個人興趣愛好的方法





