[發(fā)明專利]提取圖像文字區(qū)域的方法和裝置有效
| 申請?zhí)枺?/td> | 201711174268.7 | 申請日: | 2017-11-22 |
| 公開(公告)號: | CN108205676B | 公開(公告)日: | 2019-06-07 |
| 發(fā)明(設(shè)計)人: | 蘇睿;燕志偉 | 申請(專利權(quán))人: | 西安萬像電子科技有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/20 |
| 代理公司: | 北京康信知識產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 趙囡囡 |
| 地址: | 710075 陜西省西安*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文字區(qū)域 文字像素 宏塊 像素 待處理圖像 方法和裝置 提取圖像 灰度 過程效率 灰度顏色 建模過程 中文字 分塊 拼接 抽取 查找 | ||
本發(fā)明公開了一種提取圖像文字區(qū)域的方法和裝置。其中,該方法包括:將待處理圖像進行分塊,得到多個宏塊;對宏塊中每個像素的顏色值進行灰度顏色變換,得到每個像素的灰度值;根據(jù)每個像素的灰度值查找宏塊中的文字像素;抽取文字像素,并對文字像素進行拼接,得到待處理圖像的文字區(qū)域。本發(fā)明解決了現(xiàn)有技術(shù)中文字區(qū)域的識別需要復(fù)雜的建模過程,導(dǎo)致識別過程效率低的技術(shù)問題。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像處理領(lǐng)域,具體而言,涉及一種提取圖像文字區(qū)域的方法和裝置。
背景技術(shù)
在計算機數(shù)字圖像處理領(lǐng)域,圖像中的文字是一種重要的圖像內(nèi)容。自動提取和識別圖像中的文字,會極大地協(xié)助計算機對圖像進行分類、索引,且有助于圖像后期的處理,如壓縮或OCR識別。
目前圖像文字分割技術(shù)大體可分為三類:基于顏色閾值的連通域方法,基于統(tǒng)計模型方法和基于聚類的方法。
1、基于顏色閾值的方法,其通常會將全幀圖像做全局閾值或局部閾值處理,使其變成一個二值圖像,然后再利用空間相關(guān)性,將那些連通在一起的像素點所構(gòu)成的區(qū)域所覆蓋的像素標(biāo)記為文字像素,從而達到將文字從背景中提取出來的目的。此方法的缺點是,如果圖像中文字的背景比較復(fù)雜,且文字顏色與背景相似,則全局閾值或局部閾值的選擇都會變得非常困難,導(dǎo)致該方法無法使用。
2、基于統(tǒng)計模型的方法,此方法會將文字塊內(nèi)所有的像素建立概率模型,通常可以是高斯混合模型,然后通過概率模型參數(shù)確定每個區(qū)域的像素是否屬于文字塊像素。由于概率模型的假設(shè)條件對于自然界產(chǎn)生的圖像較為適用,所以分割自然物體效果較好。但是對于人工圖像(例如:印刷體文字),此高斯概率模型很難成立,所以應(yīng)用于人工圖像中的文字分割效果較差。
3、基于聚類的方法,此方法通過將一幀圖像的像素分為M類,文字像素對應(yīng)于其中一類。通過支持向量積或主成分分析方法,將一個低維度空間問題轉(zhuǎn)換為一個高維度空間問題。在高維空間分類后,再映射回其原始空間。此種方法需要選擇合適的核函數(shù)且要建立復(fù)雜的數(shù)學(xué)模型,計算復(fù)雜度高,實際應(yīng)用受限。同時,如果背景中出現(xiàn)大量與文字相近的顏色時,會將背景像素歸入為文字塊像素,也會產(chǎn)生較高的誤判率。
上述集中文字分割方法均從全局圖像的像素數(shù)據(jù)來分割文字,不僅會干擾到局部的文字像素判斷與標(biāo)識,同時復(fù)雜的數(shù)學(xué)模型的方法給實際應(yīng)用帶來很大的局限性。
針對現(xiàn)有技術(shù)中文字區(qū)域的識別需要復(fù)雜的建模過程,導(dǎo)致識別過程效率低的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明實施例提供了一種提取圖像文字區(qū)域的方法和裝置,以至少解決現(xiàn)有技術(shù)中文字區(qū)域的識別需要復(fù)雜的建模過程,導(dǎo)致識別過程效率低的技術(shù)問題。
根據(jù)本發(fā)明實施例的一個方面,提供了一種提取圖像文字區(qū)域的方法,包括:將待處理圖像進行分塊,得到多個宏塊;對宏塊中每個像素的顏色值進行灰度顏色變換,得到每個像素的灰度值;根據(jù)每個像素的灰度值查找宏塊中的文字像素;抽取文字像素,并對文字像素進行拼接,得到待處理圖像的文字區(qū)域。
進一步地,獲取每個像素的顏色值,其中,顏色值包括三個顏色通道的顏色數(shù)據(jù);確定三個顏色通道的顏色數(shù)據(jù)的均值為灰度值。
進一步地,根據(jù)宏塊中每個像素的灰度值確定宏塊中出現(xiàn)頻率最多的灰度值為第一主顏色;確定具有第一主顏色的第一類像素為文字像素。
進一步地,將第一類像素的數(shù)量占宏塊中像素數(shù)量的比例與預(yù)設(shè)比例進行比對;在第一類像素的數(shù)量占宏塊中像素數(shù)量的比例大于或等于預(yù)設(shè)比例的情況下,停止繼續(xù)查找文字像素;在第一類像素的數(shù)量占宏塊中像素數(shù)量的比例小于預(yù)設(shè)比例的情況下,在宏塊中繼續(xù)查找文字像素。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安萬像電子科技有限公司,未經(jīng)西安萬像電子科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711174268.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





