[發明專利]一種基于可微分二值化的實時文本檢測方法有效
| 申請號: | 201911038562.4 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN110781967B | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 白翔;廖明輝;萬昭祎;姚聰 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V30/148;G06N3/08;G06N3/04 |
| 代理公司: | 深圳市六加知識產權代理有限公司 44372 | 代理人: | 向彬 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 微分 二值化 實時 文本 檢測 方法 | ||
1.一種基于可微分二值化的實時文本檢測方法,其特征在于,所述方法包括下述步驟:
(1)訓練基于可微分二值化的實時文本檢測方法的網絡模型,包括如下子步驟:
(1.1)準備具有文本位置標注的訓練數據集,位置的表示方式是水平的矩形或者任意的多邊形;
(1.2)定義場景文本檢測網絡模型,使用步驟(1.1)中適應于批量訓練的帶標注訓練數據集,設計損失函數,選擇參數優化器,利用反向傳導方法訓練該網絡,得到場景文本檢測網絡模型;包括:
(1.2.1)構建基于可微分二值化的場景文本檢測網絡模型,所述網絡模型由基本特征提取模塊、概率圖預測模塊、閾值圖預測模塊和二值化模塊組成;
(1.2.2)生成分割圖和閾值圖的訓練標簽,所述分割圖的訓練標簽被用于概率圖預測模塊生成概率圖,所述閾值圖的訓練標簽被用于閾值圖預測模塊生成閾值圖;
(1.2.3)以標準訓練數據集Itr作為場景文本檢測網絡模型的輸入,利用基本特征提取模塊提取基本特征,將基本特征輸入概率圖預測模塊得到概率圖,將基本特征輸入閾值圖預測模塊得到閾值圖,分別將概率圖和閾值圖輸入二值化模塊,通過可微分二值化操作輸出二值圖;
(1.2.4)分別計算概率圖預測模塊、閾值圖預測模塊和二值圖的損失函數,對上述3個損失函數加權求和,得到總的損失函數,反向傳播計算梯度,使用隨機梯度下降優化器更新模型參數,得到訓練好的場景文本檢測網絡模型;
(2)利用上述訓練好的場景文本檢測網絡模型進行場景文本檢測,包括如下子步驟:
(2.1)將待檢測的場景文本圖片提取基本特征,輸入概率圖預測模塊,得到概率圖;
(2.2)將概率圖根據一個預設閾值進行二值化,得到二值圖;
(2.3)對二值圖尋找連通區域,并將對應連通區域內的平均概率值作為置信度進行過濾,得到文本的包圍盒。
2.根據權利要求1所述的基于可微分二值化的實時文本檢測方法,其特征在于,所述步驟(1.2.1)中的場景文本檢測網絡模型具體為:
所述場景文本檢測網絡模型由基本特征提取模塊、概率圖預測模塊、閾值圖預測模塊和二值化模塊組成;其中,所述基本特征提取模塊以ResNet-18或者ResNet-50深度卷積神經網絡為基礎網絡,采用特征金字塔的形式,將不同尺寸的特征圖進行融合,用于從輸入圖片中提取基本特征;將提取的基本特征分別輸入概率圖預測模塊和閾值圖預測模塊,分別得到概率圖和閾值圖;概率圖預測模塊和閾值圖預測模塊的組成結構是一致的,均由一個3*3的卷積層和兩個stride為2的反卷積層組成,對概率圖預測模塊應用分割圖的訓練標簽,對閾值圖預測模塊應用閾值圖的訓練標簽;然后將概率圖和閾值圖輸入二值化模塊,得到二值圖;最后對二值圖找連通區域,得到文本包圍盒。
3.根據權利要求1或2所述的基于可微分二值化的實時文本檢測方法,其特征在于,所述步驟(1.2.2)具體為:
對于一幅文字圖片,每個標注的文字區域由多邊形描述,其中n為多邊形的端點數量,為了生成分割圖和閾值圖的訓練標簽,首先通過多邊形內縮算法變換為內縮或外擴的多邊形框,內縮或外擴的距離由框的面積和周長計算得到,表達式為:
其中L是多邊形的周長,r是內縮系數,A表示多邊形的面積,從內縮之后的多邊形框得到分割圖的標簽:在多邊形內的像素視為正樣本而其他像素位置視為負樣本,同樣地,從原始多邊形框到內縮和外擴多邊形框之間的區域生成閾值圖的漸進標簽。
4.根據權利要求1或2所述的基于可微分二值化的實時文本檢測方法,其特征在于,所述步驟(1.2.3)具體為:
首先,將圖片輸入基本特征提取模塊,將這些不同尺度的特征圖上采樣到同一個尺度,并將它們串聯起來形成融合特征圖F;接下來,融合特征圖F被用來預測概率圖P和閾值圖T,融合特征圖F分別被輸入概率圖預測模塊和閾值圖預測模塊,分別得到概率圖P和閾值圖T;最后,將概率圖P和閾值圖T分別輸入二值化模塊,通過P和T計算出二值圖B,計算公式為
其中是近似二值圖;B是二值圖,t是預設的閾值,k是放大因子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911038562.4/1.html,轉載請聲明來源鉆瓜專利網。





