[發明專利]一種基于深度卷積神經網絡的文本矯正方法在審
| 申請號: | 202210306080.8 | 申請日: | 2022-03-25 |
| 公開(公告)號: | CN114612920A | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 郭延文;孟祥祥 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06V30/412 | 分類號: | G06V30/412;G06K9/62;G06N3/04;G06N3/08;G06V10/774;G06V10/82 |
| 代理公司: | 深圳峰誠志合知識產權代理有限公司 44525 | 代理人: | 杜翠鳴 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 卷積 神經網絡 文本 矯正 方法 | ||
1.一種基于深度卷積神經網絡的文本矯正方法,其特征在于,包括以下步驟:
步驟1:采集文本圖片數據,并對數據進行預處理;
步驟2:構建神經網絡模型,并使用采集的數據進行訓練;
步驟3:訓練完成后,將待檢測圖像輸入網絡模型,得到邊緣圖像;
步驟4:對步驟3得到的邊緣圖像,進行霍夫投票;
步驟5:處理步驟4中的霍夫投票結果,得到四邊形;
步驟6:根據將步驟5中的四邊形的四個角點,對原圖像進行單應性變換,得到矯正后的文本。
2.如權利要求1所述的方法,其特征在于,步驟1包括:在網絡上爬取相應的文本圖片,并對爬取到的圖片進行篩選,去除其中與文本不對應的圖片,并準備桌面物品作為文本圖片的噪聲,以隨機的位置,和文本圖片進行結合;
步驟1-1,從全部文本圖片,選取部分圖片,對文本圖片隨機地添加些遮擋物對原圖中的文本進行隨機部位的遮擋;
步驟1-2,將經過步驟1-1后的數據集中的圖像,縮放成像素尺寸為256*256;
步驟1-3,對256*256的圖像做歸一化處理。
3.根據權利要求2所述的方法,其特征在于,步驟2包括如下步驟:
步驟2-1,構造神經網絡模型;
步驟2-2,初始化神經網絡模型,采用預訓練好的網絡參數;
步驟2-3,用步驟1中預處理后的正方形圖像數據對神經網絡模型進行訓練,并保存訓練好的模型。
4.根據權利要求3所述的方法,其特征在于,步驟3-1包括如下步驟:
構造神經網絡模型,該模型采用RCF,基于VGG 16網絡架構,該模型包含五個層級的特征提取架構,具體結構為:輸入為大小為256*256*3的圖像;第1層級為包括2個卷積層,卷積核的大小是3*3,卷積核的數量是64;第2層級為包括2個卷積層,卷積核的大小是3*3,卷積核的數量是128;第3層級為包括3個卷積層,卷積核的大小是3*3,卷積核的數量是256;第4層級為包括3個卷積層,卷積核的大小是3*3,卷積核的數量是512;第5層級為包括3個卷積層,卷積核的大小是3*3,卷積核的數量是512,每個層級的卷積層,連接一個卷積層,卷積核的大小是1*1,卷積核的數量為21,對于每一層級,將所有的1*1卷積的結果,再連接一個的卷積,卷積核的大小是1*1,卷積核的數量為1,然后再進行一次反卷積,到原始圖片的大小,作為該層級的中間輸出,最后將5個層級的所有中間輸出,進行concat操作,對該結果進行最后一個卷積操作,卷積核的大小是1*1,卷積核的數量為1,得到最終結果。
5.根據權利要求4所述方法,其特征在于:
步驟4-1,建立參數空間;
霍夫投票的關鍵是建立參數空間,即霍夫空間,直線在極坐標系下,由參數θ和參數ρ共同決定,參數θ的范圍為(0,π),均分為m個單元,參數ρ的范圍為(-l,l)均分為n個單元參數空間一共m*n個單元,其中l為圖片對角線的長度;
步驟4-2,建立一個同等大小m*n的投票表格,將之前得到的邊緣圖像,提取出其中的邊緣像素點,可以提取的像素點的個數記為s,對每一個像素點,求其在霍夫空間的m個離散點;
步驟4-3,收集所有的邊緣像素點對應的所有的霍夫空間的離散點,一共有s*m個,將所有離散點進行在投票表中進行投票,得票數較多的即可作為候選直線。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210306080.8/1.html,轉載請聲明來源鉆瓜專利網。





