[發(fā)明專利]一種交互式的自然場景文本檢測方法有效

申請?zhí)枺?/td>	201310308807.7	申請日：	2013-07-22
公開（公告）號：	CN103336961A	公開（公告）日：	2013-10-02
發(fā)明（設(shè)計）人：	王春恒;胡僅龍;肖柏華;史存召;高嵩	申請（專利權(quán)）人：	中國科學(xué)院自動化研究所
主分類號：	G06K9/20	分類號：	G06K9/20;G06K9/38
代理公司：	中科專利商標(biāo)代理有限責(zé)任公司 11021	代理人：	宋焰琴
地址：	100190 ***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種交互式自然場景文本檢測方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

本發(fā)明涉及模式識別技術(shù)領(lǐng)域，具體是一種交互式的自然場景文本檢測方法。

背景技術(shù)

隨著數(shù)碼相機、攝像頭、超高速掃描儀等圖像獲取設(shè)備的廣泛應(yīng)用，圖像中的信息越來越引起人們的關(guān)注，但是目前讓計算機理解圖像的內(nèi)容還是很困難的。然而數(shù)字圖像中嵌入的文字能夠提供一些人們所需的重要信息，如書的封面、視頻、自然風(fēng)景圖片、網(wǎng)頁的彩圖等，它們對理解圖像中的內(nèi)容有著重要的幫助作用。讓計算機像人類一樣識別圖像中的文字，即文字的自動檢測，近年來越來越引起人們的關(guān)注，它對于圖像的存儲、分類和檢索等來說具有極其重要的意義，并有著廣泛的應(yīng)用前景和商業(yè)價值。在許多情況下，圖像中的文字甚至成為圖像中最為關(guān)鍵的信息。

目前OCR引擎只能處理純文本的數(shù)字圖像，然而由于圖像中的文本塊往往具有非常復(fù)雜的背景，比如光照、文字大小、分辨率等的影響，所以將檢測到的文本塊直接送入傳統(tǒng)的OCR識別引擎其識別效果非常差。因此，這就需要通過對數(shù)字圖像中的文本檢測抽取技術(shù)進行研究，以提高OCR引擎的預(yù)處理部分的性能，從而顯著提高識別引擎的整體性能。

目前大部分的文本檢測方法可以分為三類：基于邊緣的方法、基于區(qū)域的方法和基于紋理的方法?；谶吘墮z測的方法是利用邊緣檢測算子對圖像做邊緣提取，根據(jù)邊緣圖像的一些不變特征進行文字檢測。此類方法計算簡單，對文字和背景對比度較大的疊加文字處理效果較好；但在文字和背景對比度相差不大的情況下，文字檢測效果并不理想。基于區(qū)域文字特征的檢測方法是把圖像分成幾個連通域，對每個連通域進行二值化處理，然后利用連通域分析和區(qū)域高度、寬度、投影等特征檢測出文字所在區(qū)域。這類方法比較適合文本檢測的前期階段，在文字和背景顏色具有很強的對比度時，可以形成很好的文字連通域；但在對比度不大的情況下，可能會無法檢測出文字所在區(qū)域，造成漏檢的現(xiàn)象?；诩y理的方法是把文本看成是一種特殊的紋理，利用一些紋理圖像的處理方法來進行文本檢測。但遇到紋理規(guī)則與文本相似的區(qū)域時，就需要結(jié)合其他特征進行相應(yīng)的檢測。

如果僅僅使用一種特征對復(fù)雜對象進行判別，使用的信息少、可靠性差，系統(tǒng)性能也比較低。對于文本檢測，無論是邊緣特征，還是顏色特征、紋理特征等，單獨使用都無法獲得令人滿意的效果。在綜合集成方法論的指導(dǎo)下，可以采用基于多特征集成性的文本檢測方法。根據(jù)文本的多種特征，將多種特征集成融合，提出基于多特征集成性的文本檢測方法，適應(yīng)各種復(fù)雜圖像中的文本檢測，從而提高文本檢測的性能，這里用到了邊緣特征和文字本身的特征。另外根據(jù)文字特征和計算復(fù)雜度設(shè)計多級文本檢測器,每一級檢測器根據(jù)上一級檢測器檢測的結(jié)果用相關(guān)的處理方法進行檢測，逐級修正和精確檢測結(jié)果使得檢測結(jié)果更精確。這樣既可以防止漏檢，又可以防止誤檢，以適應(yīng)各種圖像中的文本檢測，提高系統(tǒng)性能，增強系統(tǒng)的穩(wěn)定性。

發(fā)明內(nèi)容

本發(fā)明的目的是提供一種交互式的自然場景文本檢測的方法，是一種自適應(yīng)復(fù)雜背景文本圖像檢測方法，其采用由“粗”到“精”的檢測技術(shù)。首先讓用戶在場景圖片中標(biāo)記出感興趣的文本所在區(qū)域，即在文本上畫一條線。粗略文本區(qū)域是根據(jù)這條線從原圖中選取一個擴展區(qū)域，在擴展區(qū)域圖像中進行邊緣檢測，對邊緣檢測結(jié)果進行連通域標(biāo)記，再對標(biāo)記結(jié)果的邊界進行投影得到邊緣文本區(qū)域，然后對這個區(qū)域分塊二值化、連通域標(biāo)記和投影操作，得到粗略文本區(qū)域。最后是根據(jù)粗略文本區(qū)域精確定位文本區(qū)域，先對粗略文本區(qū)域進行分塊二值化和反色的二值化操作，對兩種二值化結(jié)果分別進行連通域標(biāo)記、去除邊界極大極小噪聲、去除孤立噪聲、邊界投影和連通域數(shù)目確定等操作，然后根據(jù)兩種二值圖像的連通域數(shù)目確定圖片極性，最后對連通域進行融合，得到精確的文本區(qū)域。

為達到上述目的，本發(fā)明提出的一種交互式的自然場景文本檢測方法包括以下步驟：

一種交互式自然場景文本檢測方法，其特征在于，該方法包括以下步驟：

步驟1，輸入待檢測圖像；

步驟2，使用標(biāo)記線在所述待檢測圖像中人為標(biāo)記待檢測文字所在的區(qū)域，并以所述標(biāo)記線為基準(zhǔn)進行擴展，得到一擴展后的文本區(qū)域；

步驟3，對于所述擴展后的文本區(qū)域進行邊緣檢測，對邊緣檢測結(jié)果進行膨脹處理和連通域標(biāo)記，判斷所得到的每個連通域是否為文字，并去除非文本連通域；

步驟4，對于去除非文本連通域后的文本區(qū)域，利用投影法得到由所述文本區(qū)域所包含的文本的邊緣組成的邊緣文本區(qū)域；

步驟5，對所述邊緣文本區(qū)域進行分塊二值化處理，并利用投影法和連通域標(biāo)記得到粗略文本區(qū)域；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動化研究所，未經(jīng)中國科學(xué)院自動化研究所許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310308807.7/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種磨刷墊板
下一篇：一種基于AMC7150集成電路的LED路燈電源驅(qū)動裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06K 數(shù)據(jù)識別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形，例如，指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正，例如，用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的，例如，由不同形狀的各個筆畫組成的，而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理，即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】