[發明專利]一種用以增強文字與背景差異的邊緣響應統計變換方法有效
| 申請號: | 201610850397.2 | 申請日: | 2016-09-26 |
| 公開(公告)號: | CN106650579B | 公開(公告)日: | 2019-06-14 |
| 發明(設計)人: | 宋永紅;賀翔;張元林 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06K9/20;G06K9/32 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 何會俠 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用以 增強 文字 背景 差異 邊緣 響應 統計 變換 方法 | ||
本發明公開一種用以增強文字與背景差異的邊緣響應統計變換方法,1、對于一副輸入的包含文本的自然場景圖像,計算該圖像中的邊緣包圍框,依據邊緣包圍框的分數對所有邊緣包圍框遞減排序,按照文字邊緣在所有物體邊緣目標中的分布特性對排序后的邊緣包圍框進行篩選,并對篩選后得到的包圍框集合進行加權求和計算,得到邊緣響應特征圖;2、在邊緣響應特征圖上按行方向依次累加響應值,得到行方向上的統計邊緣響應圖,簡稱行統計圖;對行統計圖計算梯度,得到反映響應值變化強烈程度的梯度圖;對梯度圖取正,并使其與行統計圖量綱統一,并執行非極大值抑制操作,得到文本行粗定位結果;本發明降低了處理難度和計算量;此外文本行的定位為后續的文字識別、多語種翻譯、圖像內容理解等應用提供數據基礎。
技術領域
本發明屬于自然場景圖像文本檢測領域,具體涉及一種用以增強文字與背景差異的邊緣響應統計變換方法。
背景技術
自然場景圖像中的文本檢測是一種從自然場景中拍攝的圖片中定位出文本行的技術。該技術對于基于內容的互聯網搜索、視覺輔助、翻譯及無人駕駛汽車等領域都有廣泛的應用。如果直接對自然場景中的文字進行識別(例如采用光學字符識別技術OCR),會因為拍攝的圖像中可能包含許多復雜背景(例如樹葉、磚墻、柵欄等)而導致大量的誤檢,使得文本的識別效果極差。
因此為了提高文本識別的準確率,領域內通常采用的方法是先使用文本定位技術在原圖中將文本行區域提取出來,然后進行OCR等識別處理。但同時自然場景圖像中的文本檢測也存在一些挑戰,主要包括以下難點,首先是圖像質量差,受拍攝條件制約會使圖像中的文本區域因模糊、遮擋、反光等原因導致普通的文本檢測方法失效。另外一個難點是文本本身的形態差異,例如浮雕碑文,低分辨率以及藝術字等問題。
自然場景圖像文本檢測領域包含兩類主流方法:基于多尺度滑動窗掃描的文本檢測和基于連通區域提取的文本檢測。多尺度滑動窗法采用分類器對圖像金字塔上的每個區域進行文字與非文字二分類,雖然檢測精度較高但龐大的計算量影響了實時性能。連通區域提取方法是一種輕量、高效的圖算法,通過假設屬于同一字符的像素具有類似的特征(如灰度、顏色、SWT和MSER等)而將這些像素聚集成文字連通區域,其運算量不取決于文本的尺度范圍、方向及字體等屬性,因此時間性能優于滑動窗。缺點是對聚合、粘連、抖動模糊、光照變化及極端文字尺寸等改變連通區域結構的場景敏感。
發明內容
本發明針對上述問題,提出了一種用以增強文字與背景差異的邊緣響應統計變換方法,該方法在輸入圖像中計算邊緣包圍框,進行邊緣響應變換,得到了文本區域與背景區域間響應值差異獲得明顯增強的邊緣響應特征圖,然后對邊緣響應特征圖執行簡單的求取梯度、非極大值抑制等操作,即能夠從輸入圖像中定位出文本行的位置。相比于多尺度滑動窗掃描類方法和連通區域提取類方法,本方法無需算法復雜的文字檢測算子,時間復雜度降低、實時性能好。同時本方法因為在統計層面上對計算得到的邊緣包圍框執行排序、篩選等操作,故能夠對具有復雜背景的圖像中的文本行呈現魯棒的定位結果。
為了達到上述目的,本發明采用如下技術方案:
一種用以增強文字與背景差異的邊緣響應統計變換方法,包括以下步驟:
步驟A:對于一副輸入的包含文本的自然場景圖像,計算該圖像中的邊緣包圍框,其中邊緣包圍框是指對圖像中邊緣目標可能存在的位置用矩形包圍框標注,而邊緣目標既包含文字邊緣目標,也可能包含其它物體邊緣目標;依據邊緣包圍框的分數對所有邊緣包圍框遞減排序,其中邊緣包圍框的分數由包圍框內完全包含的輪廓個數來確定;按照文字邊緣在所有物體邊緣目標中的分布特性對排序后的邊緣包圍框進行篩選,并對篩選出的邊緣包圍框集合進行加權求和計算,其中權值由反比例函數確定;得到邊緣響應特征圖;
步驟B:在邊緣響應特征圖上按行方向累加響應值,得到行方向上的統計邊緣響應圖,簡稱行統計圖;對行統計圖計算梯度,得到梯度圖;對梯度圖取正,并使其與行統計圖量綱統一;對量綱統一后的梯度圖執行非極大值抑制操作,得到文本行粗定位結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610850397.2/2.html,轉載請聲明來源鉆瓜專利網。





