[發明專利]一種基于深度卷積神經網絡的自然場景水平文字檢測方法有效
| 申請號: | 202010426676.2 | 申請日: | 2020-05-19 |
| 公開(公告)號: | CN111753828B | 公開(公告)日: | 2022-12-27 |
| 發明(設計)人: | 宋清洋;孫巍;郭志林 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V30/19;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 卷積 神經網絡 自然 場景 水平 文字 檢測 方法 | ||
本發明請求保護一種基于深度卷積神經網絡的自然場景水平文字檢測方法。該方法在TextBoxes網絡模型的基礎上進行深度優化,通過增加新的文本預測卷積組,擴展網絡深度,使網絡對于小數據集的特征學習更加充分,并且在一定的模型復雜度下,充分利用多個卷積層的特征信息進行融合學習。通過對具有不同感受野的卷積層對原始圖片數據進行特征學習后,利用文本預測層回歸文本框的位置并預測文本類別。該檢測方法有效地解決了自然場景的背景復雜性以及小數據集特征不足等因素對文字檢測造成的影響。通過在Caffe平臺下進行實驗驗證,結果表明該模型能有效提高小數據集下的自然場景水平文字檢測的召回率和綜合評價指標。
技術領域
本發明屬于圖像處理技術領域,特別是用于自然場景文本檢測的深度卷積神經網絡新型應用技術。
背景技術
智能手機的大規模普及和互聯網的快速發展帶來了眾多的新型產品和智能化服務,這引發了對實用視覺技術的巨大需求。文本是自然場景中最普遍的視覺對象之一,對于現實世界中的各種應用來說非常有價值,因此,自然場景文本檢測和識別已經成為計算機視覺領域的研究熱點之一。近年來,自然場景文字檢測已經成為圖像處理、計算機視覺以及自然語言處理等領域中的重要研究方向。
現有的基于邊緣的文字檢測方法首先利用邊緣特性來計算文本候選區的能量。之后根據能量值的高低排除非文本信息。最后利用相鄰文本候選區之間的空間關系、顏色信息、像素強度以及尺寸信息等將相似度較高的候選區連接在一起形成文本。該檢測方法原理通俗易懂,計算速度也比較快并且易于實現,但是當背景復雜時,文字的邊緣特征相對而言就會變得模糊,該種方法就不能得到廣泛應用。因此傳統的基于邊緣的文字檢測方法并不適用于自然場景文字檢測。
現有的基于連通域的文字檢測方法對圖片的顏色特性或者區域極值等屬性進行聚類,得到連通域,進而提取出文本候選區;然后再利用分類器去除非文本區域。該方法所得到的文本候選框數量比較少,因此在計算速度上較其他算法較快一些,并且對文字大小沒有固定要求。但是在背景相對復雜的自然場景中,文本和非文本信息很難根據顏色等信息進行區分,因而很難得到較好的連通域。因此,基于連通域的文字檢測方法也不適用于自然場景下的文字檢測。
現有的基于紋理的文字檢測方法一般將文字看作是一種特殊的紋理,利用紋理本身的特殊性進行文本檢測。在文本紋理和背景紋理區分過程中,常用的紋理特征包括小波變換、濾波器響應、文本較強邊界以及與非文本的較大對比度等。在該算法中,利用經典的邊緣檢測算子進行邊緣檢測;其次,計算圖像中的不同行空間矩陣的方差,將方差值較大的視為文本候選區,方差值較小的視為背景區域;最后通過顏色強度、連通域內像素的相似性等信息對文本候選區進行篩選,進而去除背景區域。該方法雖然能很好地適應不同字體以及不同規格大小的文本檢測,但是其耗時較長,而且計算復雜度也較高,不能滿足實際需求。
由此可見,現有技術存在計算復雜度高、檢測精度低、不適應與自然場景下背景復雜性的文字檢查等技術問題。
發明內容
本發明旨在解決以上現有技術的問題。提出了一種解決小數據集下的自然場景水平文字檢測問題,克服自然場景下的背景復雜性以及其它外界因素對文字檢測的不利影響的基于深度卷積神經網絡的自然場景水平文字檢測方法。本發明的技術方案如下:
一種基于深度卷積神經網絡的自然場景水平文字檢測方法,其包括以下步驟:
步驟1:獲取數據集:首先獲取符合小數據集特性的訓練圖片,并人為地添加不同程度的椒鹽噪聲,椒鹽噪聲是一種典型的數字圖像噪聲,之后對獲得的數據集進行預處理,將獲取的圖片進行批量重命名和標注,并按PASCAL VOC數據格式制作數據集;
步驟2:數據預處理:在網絡讀取圖片數據之前,對訓練數據進行包括圖片批量重命名、圖片標注、數據集制作、數據集劃分、數據轉換等預處理;
步驟3:建立網絡模型:以VGG-16網絡模型為基礎網絡,將全連接層全改為卷積組,組成全卷積層的神經網絡;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010426676.2/2.html,轉載請聲明來源鉆瓜專利網。





