[發(fā)明專利]一種交互式的自然場景文本檢測方法有效
| 申請?zhí)枺?/td> | 201310308807.7 | 申請日: | 2013-07-22 |
| 公開(公告)號: | CN103336961A | 公開(公告)日: | 2013-10-02 |
| 發(fā)明(設(shè)計)人: | 王春恒;胡僅龍;肖柏華;史存召;高嵩 | 申請(專利權(quán))人: | 中國科學(xué)院自動化研究所 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/38 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 交互式 自然 場景 文本 檢測 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及模式識別技術(shù)領(lǐng)域,具體是一種交互式的自然場景文本檢測方法。
背景技術(shù)
隨著數(shù)碼相機、攝像頭、超高速掃描儀等圖像獲取設(shè)備的廣泛應(yīng)用,圖像中的信息越來越引起人們的關(guān)注,但是目前讓計算機理解圖像的內(nèi)容還是很困難的。然而數(shù)字圖像中嵌入的文字能夠提供一些人們所需的重要信息,如書的封面、視頻、自然風(fēng)景圖片、網(wǎng)頁的彩圖等,它們對理解圖像中的內(nèi)容有著重要的幫助作用。讓計算機像人類一樣識別圖像中的文字,即文字的自動檢測,近年來越來越引起人們的關(guān)注,它對于圖像的存儲、分類和檢索等來說具有極其重要的意義,并有著廣泛的應(yīng)用前景和商業(yè)價值。在許多情況下,圖像中的文字甚至成為圖像中最為關(guān)鍵的信息。
目前OCR引擎只能處理純文本的數(shù)字圖像,然而由于圖像中的文本塊往往具有非常復(fù)雜的背景,比如光照、文字大小、分辨率等的影響,所以將檢測到的文本塊直接送入傳統(tǒng)的OCR識別引擎其識別效果非常差。因此,這就需要通過對數(shù)字圖像中的文本檢測抽取技術(shù)進行研究,以提高OCR引擎的預(yù)處理部分的性能,從而顯著提高識別引擎的整體性能。
目前大部分的文本檢測方法可以分為三類:基于邊緣的方法、基于區(qū)域的方法和基于紋理的方法?;谶吘墮z測的方法是利用邊緣檢測算子對圖像做邊緣提取,根據(jù)邊緣圖像的一些不變特征進行文字檢測。此類方法計算簡單,對文字和背景對比度較大的疊加文字處理效果較好;但在文字和背景對比度相差不大的情況下,文字檢測效果并不理想。基于區(qū)域文字特征的檢測方法是把圖像分成幾個連通域,對每個連通域進行二值化處理,然后利用連通域分析和區(qū)域高度、寬度、投影等特征檢測出文字所在區(qū)域。這類方法比較適合文本檢測的前期階段,在文字和背景顏色具有很強的對比度時,可以形成很好的文字連通域;但在對比度不大的情況下,可能會無法檢測出文字所在區(qū)域,造成漏檢的現(xiàn)象?;诩y理的方法是把文本看成是一種特殊的紋理,利用一些紋理圖像的處理方法來進行文本檢測。但遇到紋理規(guī)則與文本相似的區(qū)域時,就需要結(jié)合其他特征進行相應(yīng)的檢測。
如果僅僅使用一種特征對復(fù)雜對象進行判別,使用的信息少、可靠性差,系統(tǒng)性能也比較低。對于文本檢測,無論是邊緣特征,還是顏色特征、紋理特征等,單獨使用都無法獲得令人滿意的效果。在綜合集成方法論的指導(dǎo)下,可以采用基于多特征集成性的文本檢測方法。根據(jù)文本的多種特征,將多種特征集成融合,提出基于多特征集成性的文本檢測方法,適應(yīng)各種復(fù)雜圖像中的文本檢測,從而提高文本檢測的性能,這里用到了邊緣特征和文字本身的特征。另外根據(jù)文字特征和計算復(fù)雜度設(shè)計多級文本檢測器,每一級檢測器根據(jù)上一級檢測器檢測的結(jié)果用相關(guān)的處理方法進行檢測,逐級修正和精確檢測結(jié)果使得檢測結(jié)果更精確。這樣既可以防止漏檢,又可以防止誤檢,以適應(yīng)各種圖像中的文本檢測,提高系統(tǒng)性能,增強系統(tǒng)的穩(wěn)定性。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種交互式的自然場景文本檢測的方法,是一種自適應(yīng)復(fù)雜背景文本圖像檢測方法,其采用由“粗”到“精”的檢測技術(shù)。首先讓用戶在場景圖片中標(biāo)記出感興趣的文本所在區(qū)域,即在文本上畫一條線。粗略文本區(qū)域是根據(jù)這條線從原圖中選取一個擴展區(qū)域,在擴展區(qū)域圖像中進行邊緣檢測,對邊緣檢測結(jié)果進行連通域標(biāo)記,再對標(biāo)記結(jié)果的邊界進行投影得到邊緣文本區(qū)域,然后對這個區(qū)域分塊二值化、連通域標(biāo)記和投影操作,得到粗略文本區(qū)域。最后是根據(jù)粗略文本區(qū)域精確定位文本區(qū)域,先對粗略文本區(qū)域進行分塊二值化和反色的二值化操作,對兩種二值化結(jié)果分別進行連通域標(biāo)記、去除邊界極大極小噪聲、去除孤立噪聲、邊界投影和連通域數(shù)目確定等操作,然后根據(jù)兩種二值圖像的連通域數(shù)目確定圖片極性,最后對連通域進行融合,得到精確的文本區(qū)域。
為達到上述目的,本發(fā)明提出的一種交互式的自然場景文本檢測方法包括以下步驟:
一種交互式自然場景文本檢測方法,其特征在于,該方法包括以下步驟:
步驟1,輸入待檢測圖像;
步驟2,使用標(biāo)記線在所述待檢測圖像中人為標(biāo)記待檢測文字所在的區(qū)域,并以所述標(biāo)記線為基準(zhǔn)進行擴展,得到一擴展后的文本區(qū)域;
步驟3,對于所述擴展后的文本區(qū)域進行邊緣檢測,對邊緣檢測結(jié)果進行膨脹處理和連通域標(biāo)記,判斷所得到的每個連通域是否為文字,并去除非文本連通域;
步驟4,對于去除非文本連通域后的文本區(qū)域,利用投影法得到由所述文本區(qū)域所包含的文本的邊緣組成的邊緣文本區(qū)域;
步驟5,對所述邊緣文本區(qū)域進行分塊二值化處理,并利用投影法和連通域標(biāo)記得到粗略文本區(qū)域;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動化研究所,未經(jīng)中國科學(xué)院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310308807.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





