[發明專利]基于超像素的筆畫特征變換和深度學習的區域分類的場景文本檢測方法有效
| 申請號: | 201810103800.4 | 申請日: | 2018-02-01 |
| 公開(公告)號: | CN108345850B | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 鄔向前;卜巍;唐有寶 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20;G06K9/34;G06K9/46;G06K9/62;G06K9/66 |
| 代理公司: | 哈爾濱龍科專利代理有限公司 23206 | 代理人: | 高媛 |
| 地址: | 150000 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 像素 筆畫 特征 變換 深度 學習 區域 分類 場景 文本 檢測 方法 | ||
本發明公開了一種基于超像素的筆畫特征變換和深度學習的區域分類的場景文本檢測方法,所述方法包括如下步驟:一、字符區域提取:(一)基于超像素的筆畫特征變換:(1)超像素分割和聚類;(2)刪除背景區域;(3)區域細化;(二)基于深度學習的區域分類:(1)特征提取;(2)特征融合;(3)區域分類;二、文本區域檢測:(1)候選文本區域生成;(2)候選文本區域分類。本發明的方法不僅可以實現自然場景中不同大小的文本檢測,而且可以實現自然場景中不同顏色的文本檢測,包括與背景顏色接近的文本,還可以實現復雜背景下的文本檢測,如柵欄、窗戶等場景中的文本檢測。
技術領域
本發明屬于計算機科學與技術領域,涉及一種場景文本檢測方法,尤其涉及一種基于超像素的筆畫特征變換(SSFT)和深度學習的區域分類(DLRC)的場景文本檢測方法。
背景技術
自然場景圖像中文本檢測的目的在于找出不同場景,如街道標志和路標中的文字位置。這是端到端的進行場景文本識別的一個最重要的步驟,它可以提供大量有用的指示信息,如幫助盲人和警告人。此外,有效的場景文本檢測可以提高多種多媒體應用的性能,如移動視覺搜索、基于內容的圖像檢索、語義事件檢測等。近年來,大量的場景文本檢測方法已經發展起來,但在不同場景中成功地檢測出文本仍然是計算機視覺界的一個難題,因為自然環境的不受約束如不同的文本大小、不同的文本顏色和復雜的背景。
發明內容
為了解決現有技術的上述問題,本發明提供了一種基于超像素的筆畫特征變換和深度學習的區域分類的場景文本檢測方法。
本發明的目的是通過以下技術方案實現的:
一種基于超像素的筆畫特征變換和深度學習的區域分類的場景文本檢測方法,包括如下步驟:
一、字符區域提取
(一)基于超像素的筆畫特征變換
(1)超像素分割和聚類
a、將輸入圖像I∈RM×N調整到一個固定的高度h,并保持其縱橫比,當高度大于h時,使用邊緣保持過濾器平滑,圖像被分割成K個超像素,使用線性迭代聚類算法使其在組合的顏色和圖像平面空間中聚集像素,定義超像素S的顏色描述符如下:
f=(r,g,b,l,a,b,h,s,v);
式中,(r,g,b)、(l,a,b)和(h,s,v)分別是在RGB、CIELab和HSV顏色空間中像素的值,將每個分量線性歸一化到[0,1]之間;
b、用每對超像素之間的歐氏距離構造距離矩陣,基于此距離矩陣,利用平均鏈路層次聚類算法對超像素進行聚類,將原始圖像分成不同的區域;
(2)刪除背景區域
a、給定一個圖像I∈RM×N,通過應用結構化隨機決策林預測局部邊緣,直接提取邊緣概率圖EPM∈[0,1]M×N和一個漸變方向圖GOM∈[-π,π]M×N,其中每個像素的值分別表示其在原始圖像中作為邊緣點及其漸變方向的概率;
b、將非極大值抑制應用到有像素的梯度方向的EPM,然后用一個低的閾值進行二值化,提取I的邊緣圖像E;
c、利用距離變換對邊緣圖像E進行歐氏距離計算得到I的距離映射,并以DM表示;
d、定義R和(w,h)表示一個區域及其邊界矩形的大小,#(R)表示R中像素的個數,sum(DMp)和#(P)表示從距離映射DM獲得的R邊界上的像素距離值的總和以及R的邊界上的像素數目,sum(DMp)/#(P)是從R邊界上的像素到邊緣的平均距離;
e、使用步驟d中的定義,場景中的字符的以下先驗用于刪除大部分背景區域:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810103800.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種面部識別方法及其設備
- 下一篇:一種基于人臉識別分析個人興趣愛好的方法





