[發明專利]一種基于深度卷積神經網絡的自然場景水平文字檢測方法有效
| 申請號: | 202010426676.2 | 申請日: | 2020-05-19 |
| 公開(公告)號: | CN111753828B | 公開(公告)日: | 2022-12-27 |
| 發明(設計)人: | 宋清洋;孫巍;郭志林 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V30/19;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 卷積 神經網絡 自然 場景 水平 文字 檢測 方法 | ||
1.一種基于深度卷積神經網絡的自然場景水平文字檢測方法,其特征在于,包括以下步驟:
步驟1:獲取數據集:首先獲取符合小數據集特性的訓練圖片,并人為地添加不同程度的椒鹽噪聲,椒鹽噪聲是一種典型的數字圖像噪聲,之后對獲得的數據集進行預處理,將獲取的圖片進行批量重命名和標注,并按PASCAL VOC數據格式制作數據集;
步驟2:數據預處理:在網絡讀取圖片數據之前,對訓練數據進行包括批量圖片重命名、圖片標注、數據集制作、數據集劃分、數據格式轉換在內的預處理;
步驟3:建立網絡模型:以VGG-16網絡模型為基礎網絡,將全連接層全改為卷積組,組成全卷積層的神經網絡;
步驟4:訓練網絡:把制作好的數據集輸入到步驟3的網絡中進行訓練;
步驟5:文本框預測:對經過步驟4網絡訓練后輸入圖片的特征進行邊框回歸和分類,根據類別得分情況判斷預測到的邊界框內容是否為文本;
步驟6:文本框篩選:通過文本框預測,得到若干文本區域候選框,采用非極大值抑制算法消除多個候選框中的冗余候選框,找到最佳文本框;
步驟7:網絡微調:利用反向傳播不斷地更新網絡訓練的參數,結合隨機梯度下降算法來微調訓練過程,反復進行直到達到最大迭代次數;
步驟8:生成檢測結果:將圖像輸入到訓練好的模型中進行檢測,在文本檢測層中輸出檢測結果;
所述步驟3建立網絡模型具體包括:該網絡由23個卷積層、23個激勵層和5個池化層組成,是一個全卷積神經網絡,本模型沿用VGG-16的前五個卷積組,并將最后的兩個全連接層fc6、fc7均改為卷積組,并在其后新增添四個卷積組,在新增加的conv6到conv9中,每個卷積組都包含兩個卷積層,并且在每個卷積層后都設置了一個激勵層,基礎網絡部分(conv1-conv5)中的卷積層使用的卷積核大小均為3×3,填充值為1,池化層的池化窗口大小均為2×2,步長為2,經過池化層的下采樣后,輸出的長和寬均變為輸入的一半,模型中采用conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2層做預測,上述的預測層中采用1×5的卷積核,填充值Pad為2,步長為1;
所述步驟4把制作好的數據集輸入到步驟3的網絡中進行訓練,具體包括:
將歸一化為300*300的圖像輸入網絡模型中,網絡輸出為文本定位結果及文本分類的打分,訓練基礎網絡模型。具體采用迭代次數為120000次,每次迭代網絡讀取的圖片數目為32,網絡每進行500次迭代便進行一次測試,每次測試讀取一張測試圖片。測試集中共160張圖片,網絡訓練中每隔10次迭代就輸出一次當前訓練結果;
所述步驟5對經過步驟4網絡訓練后輸入圖片的特征進行邊框回歸和分類,根據類別得分情況判斷預測到的邊界框內容是否為文本,具體包括:
1.采用SSD算法中的Default box機制,設定不同規格的默認框來代替傳統的批量滑動窗口,在conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2層的每個特征圖的每個神經元上設置不同長寬比的默認框,分別為1、2、3、5、7、10;
2.網絡模型將輸入的文本圖片和大小為1×5的卷積核做卷積運算進行特征學習,進而得到72維的特征矩陣,其中48維用于回歸文本邊界框,24維對檢測目標進行分類,根據類別得分情況判斷預測到的邊界框內容是否為文本;
所述進行邊框回歸和分類的過程為:假設原始輸入圖片的尺寸大小為(wimg,himg),wimg、himg分別表示原始圖片的寬和高。輸入文本預測層的特征圖的尺寸大小為(wmap,hmap),wmap、hmap分別表示特征圖的寬和高,在特征圖上坐標為(i,j)的位置上,設置默認文本框坐標db0=(x0,y0,w0,h0),其中,(i,j)表示特征圖中每神經元的位置坐標,(x0,y0)代表特征圖中每神經元上默認框的中心位置坐標,(w0,h0)表示該默認框的寬和高的尺寸信息,文本預測層預測默認框相對于真實文本框的偏移量,假設預測坐標偏移量為(Δx,Δy,Δw,Δh,c),其中c為預測置信度,用于目標分類,預測到的文本框坐標為db=(x,y,w,h),其計算公式如下。
x=x0+w0Δx,y=y0+h0Δy,w=w0exp(Δw),h=h0exp(Δh)
采用公式(1)計算損失函數。
其中x表示和默認框相匹配的矩陣,對于第i個默認文本框和第j個真實文本框,當xij=1時表示兩者匹配,反之則不匹配,c為預測置信度,l為網絡模型預測的位置坐標,g為文本的真實位置坐標,S為默認文本框和真實文本框匹配的數目,β系數在目標檢測問題中一般設置為1,檢測目標分類Lconf(x,c)采用的是損失函數為Softmax,邊界框回歸Lloc(x,l,g)采用的是損失函數,網絡訓練學習的過程也就是邊框回歸損失和分類損失不斷下降的過程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010426676.2/1.html,轉載請聲明來源鉆瓜專利網。





