[發(fā)明專利]一種基于上下邊界提取的自然場景下文字檢測方法在審
| 申請?zhí)枺?/td> | 202110265373.1 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN112861860A | 公開(公告)日: | 2021-05-28 |
| 發(fā)明(設計)人: | 路通;鐘虎門;楊志博;王永攀 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/34;G06K9/46;G06N3/04;G06N3/08;G06T7/11 |
| 代理公司: | 北京德崇智捷知識產(chǎn)權代理有限公司 11467 | 代理人: | 王雪 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 上下 邊界 提取 自然 場景 文字 檢測 方法 | ||
1.一種基于上下邊界提取的自然場景下文字檢測方法,其特征在于,包括如下步驟:
步驟1,通過卷積神經(jīng)網(wǎng)絡模型提取輸入圖像的特征圖,并通過多尺度特征金字塔模型對特征圖進行增強;
步驟2,通過語義分割模型預測文字的整體區(qū)域、中心區(qū)域、上邊界區(qū)域以及下邊界區(qū)域;
步驟3,通過廣度優(yōu)先搜索將中心區(qū)域逐步擴展至整體區(qū)域,同時通過對上下邊界區(qū)域進行濾波操作得到文字的形式化上下邊界線;
步驟4,組合文字的中心區(qū)域、整體區(qū)域以及上下邊界線得到最終的文字檢測結果。
2.根據(jù)權利要求1所基于上下邊界提取的自然場景下文字檢測方法,其特征在于,步驟1包括:
步驟1-1,獲取自然場景圖像,對采樣到的自然場景圖像進行隨機數(shù)據(jù)增強以擴充數(shù)據(jù)集的多樣性;
步驟1-2,輸入圖像,根據(jù)數(shù)據(jù)集提供的文字標注框,生成梯度回傳掩碼M,M中需要進行梯度回傳的部分用1填充,不需要梯度回傳的部分用0填充;
步驟1-3,對數(shù)據(jù)增強后的輸入圖像像素值分通道進行標準化:
其中,input(i,j)表示輸入圖像坐標為(i,j)的像素值,mean表示某一通道內的輸入圖像像素均值,std表示某一通道內的輸入圖像像素標準差;
步驟1-4,使用基于殘差塊的卷積神經(jīng)網(wǎng)絡提取輸入圖像的特征圖;
步驟1-5,通過多尺度特征金字塔模型對特征圖進行融合,通過特征金字塔在提取的圖像特征圖的基礎上生成多個分辨率的特征圖,再將所有多個分辨率的特征圖通過resize操作放縮至最大特征圖的分辨率后將它們在通道維度拼接在一起,輸出大小為的融合特征圖;其中H為原圖高,W為原圖寬,batchsize為訓練時一次輸入卷積神經(jīng)網(wǎng)絡中的圖像數(shù)量;其中原圖指輸入圖像。
3.根據(jù)權利要求2所述基于上下邊界提取的自然場景下文字檢測方法,其特征在于,步驟1-4中的卷積神經(jīng)網(wǎng)絡是基于殘差塊建立的,殘差塊包含一個殘差映射和一個恒等映射,殘差塊的輸出即為兩者的和,定義為:
y=F(x,{Wi})+x,
x和y分別表示殘差塊的輸入向量和輸出向量,F(xiàn)(x,{Wi})就是深度神經(jīng)網(wǎng)絡的網(wǎng)絡層要學習的殘差映射。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經(jīng)南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110265373.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





