[發明專利]基于特征摘要圖的視頻中的戶外場景文本自動獲取方法有效
| 申請號: | 201711381971.5 | 申請日: | 2017-12-20 |
| 公開(公告)號: | CN108038458B | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 黃曉冬;王勤 | 申請(專利權)人: | 首都師范大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34;G06K9/46;G06K9/62 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 夏憲富 |
| 地址: | 100048 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 摘要 視頻 中的 戶外 場景 文本 自動 獲取 方法 | ||
一種基于特征摘要圖的視頻中的戶外場景文本自動獲取方法,首先獲取場景文本的視頻幀圖像,并基于視頻幀圖像的RGB色彩空間生成視頻幀特征摘要圖:先在RGB色彩空間上分別提取水平、垂直、45度和135度四個方向的四個卷積圖,得到表征色彩空間的四個方向特征向量,進而獲得代表不同方向視頻幀的十個顯著圖并進行融合計算,得到視頻幀特征摘要圖。然后基于視頻幀特征摘要圖和RGB色彩空間進行K均值顏色聚類計算,得到表示背景、前景文字字符、字符輪廓和噪音的四個區域的四類結果后,再分別分析四類結果的連通域,刪除背景和噪音兩個區域,自動獲取最終的戶外場景文本。本發明操作步驟簡單、計算容易,能夠實時識別和獲取的戶外場景文本,推廣應用前景好。
技術領域
本發明涉及一種數字圖像處理方法,確切地說,涉及一種基于特征摘要圖的視頻中的戶外場景文本自動獲取方法,屬于計算機視覺處理的技術領域。
背景技術
過去的幾年中,隨著數字圖像采集裝置、智能手機和實用視覺系統及其設備的普及,基于內容的圖像理解技術得到越來越多的關注。因為圖像/視頻中的場景文本具有比較豐富、直接的語義信息線索,因此,場景文本被認為是必須要被檢測和識別的重要對象。其中,文本檢測、定位、提取和識別是獲取文本信息的主要步驟。通常是將文本檢測、定位和提取的操作統一稱為文本獲取。對于文本識別而言,文本獲取是非常重要的前提,因為它減少了復雜背景,消除了照明效果,從而使得識別相對簡單和容易。然而,由于室內外的不均勻光照,圖像/視頻的模糊不清,背景復雜,透視變形,顏色多樣性,字體復雜和筆劃寬度的不同等等多種不利因素,都對視頻場景文本的獲取產生很大的挑戰性和嚴峻性。
目前,國內外的研究人員已經在視頻場景文本的獲取技術方面研制成功了多種方法。現在,將場景文本的提取分為兩個步驟:(1)場景文本的檢測定位,(2)場景文本的提取。
現有技術的場景文本檢測定位方法可分為:基于顏色的、基于邊緣/梯度的、基于紋理的和基于筆劃的四種不同的場景文本檢測方法。其中:
基于顏色的場景文本檢測:這是一種早就提出并已經用了20余年的傳統方法,該方法簡單又高效:通常采用基于局部閾值的場景文本檢測算法,也有研究人員采用改進尼布拉克Niblack算法中的局部閾值獲取方法,使得該方法能夠用于一些背景比較簡單的場景文本進行快速檢測。研究人員還提出使用均值移動(mean shift)算法生成顏色層,以便顯著提高在復雜背景下文本檢測的魯棒性。但是,在視頻/圖像中存在多種顏色的字符和光照不均勻時,基于顏色特征的文本檢測會遇到許多難題。
基于邊緣/梯度的場景文本檢測:假設在背景區域上顯示的文本區域出現強烈且對稱的變化時,具有大的、對稱的梯度值的像素可被視為文本像素,這就可以將邊緣特征和梯度特征用于場景文本檢測中。研究人員還提出一種基于邊緣增強的場景文本檢測算法。這類研究包括基于尺寸、位置和顏色距離的空間限制,將水平排列的“梯度矢量流”通過聚類方式找到文本候選區域。當前,研究人員提出將梯度/邊緣特征與各種分類器(例如人工神經網絡或AdaBoost算法)相結合的基于AdaBoost分類器的場景文本檢測算法;甚至進一步提出在基于AdaBoost分類器的基礎上,再增加一種基于神經網絡的文本定位器的檢測方法。但是,這類算法難以檢測具有強烈梯度的復雜背景下的場景文本。
基于紋理的場景文本檢測:當字符區域比較密集時,場景文本可被視為一種紋理。當前許多方法都采用提取紋理特征來檢測場景文本,包括采用傅立葉變換,離散余弦變換DCT(Discrete Cosine Transform),小波,局部二值模式LBP(Local Binary Pattern)和方向梯度直方圖HOG(Histogram of Oriented Gradient)等等。雖然紋理特征能被用于有效檢測密集的字符,然而該方法可能無法檢測稀疏的字符。于是,研究人員分別提出基于傅里葉頻域特征檢測場景文本和基于頻域中的DCT系數檢測場景文本的方法。近來又提出一種基于局部二值模式(Local Haar Binary Pattern)特征檢測場景文本算法。然而,當呈現的背景復雜時,許多背景噪音也都顯示出與文本相似的紋理,這樣就降低了該方法的檢測精度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于首都師范大學,未經首都師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711381971.5/2.html,轉載請聲明來源鉆瓜專利網。





