[發明專利]一種基于可微分二值化的實時文本檢測方法有效
| 申請號: | 201911038562.4 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN110781967B | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 白翔;廖明輝;萬昭祎;姚聰 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V30/148;G06N3/08;G06N3/04 |
| 代理公司: | 深圳市六加知識產權代理有限公司 44372 | 代理人: | 向彬 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 微分 二值化 實時 文本 檢測 方法 | ||
本發明公開了一種基于可微分二值化的實時文本檢測方法。通過對圖像進行分割,得到文本區域的概率圖,對概率圖采用可微分二值化得到二值圖,在二值圖上尋找聯通區域即可得到文本區域的包圍盒。本方法通過給概率圖和二值圖均施加監督,將二值化的過程納入訓練之中,提升檢測效果。本發明相對于現有文本檢測方法,在準確度、運行效率和通用性方面都取得了卓越效果,有很強的實際應用價值。
技術領域
本發明屬于計算機視覺技術領域,更具體地,涉及一種基于可微分二值化的實時文本檢測方法。
背景技術
近年來,由于圖像/視頻理解、視覺搜索、自動駕駛和盲輔助等廣泛的實際應用,在場景圖像中閱讀文本已經成為一個活躍的研究領域。
作為場景文本閱讀的關鍵組成部分,旨在定位每個文本實例的邊界框或區域的場景文本檢測仍然是一項具有挑戰性的任務,因為場景文本通常具有各種尺度和形狀,包括水平、多向和彎曲文本。基于分割的場景文本檢測方法最近引起了很多關注,因為受益于其在像素級的預測結果,它可以描述各種形狀的文本。然而,大多數基于分割的方法需要復雜的后處理以將像素級預測結果分組為檢測到的文本實例,從而導致推理過程中花費相當大的時間成本。
如圖1所示,大多數現有的檢測方法使用類似的后處理流水線:首先,它們設置一個固定的閾值,用于將分割網絡產生的概率圖轉換成二進制圖像,然后,一些啟發式技術(如像素聚類)用于將像素分組為文本實例。或者,我們的流水線旨在將二值化操作插入到分段網絡中以進行聯合優化。通過這種方式,可以自適應地預測圖像的每個位置處的閾值,這可以完全區分像素與前景和背景。然而標準二值化函數是不可微分的,因此無法直接在深度學習網絡中參與反向傳播訓練。
發明內容
本發明的目的在于提供一種基于分割的實時文本檢測方法,并在速度和精度上達到很好的平衡。
為實現上述目的,本發明提出了一種基于可微分二值化的實時文本檢測方法,包括下述步驟:
(1)訓練基于可微分二值化的文本檢測網絡模型,包括如下子步驟:
(1.1)準備具有文本位置標注的訓練數據集,位置的表示方式可以是水平的矩形或者任意的多邊形;
(1.2)定義場景文本檢測網絡模型,使用步驟(1.1)中適應于批量訓練的帶標注訓練數據集,設計損失函數,選擇參數優化器,利用反向傳導方法訓練該網絡,得到場景文本檢測網絡模型;具體包括如下子步驟:
(1.2.1)如圖2所示構建基于可微分二值化的場景文本檢測網絡模型,所述網絡模型由基本特征提取模塊、概率圖預測模塊、閾值圖預測模塊和二值化模塊組成。其中,所述基本特征提取模塊以ResNet-18或者ResNet-50深度卷積神經網絡為基礎網絡,采用特征金字塔的形式,將不同尺寸的特征圖進行融合,用于從輸入圖片中提取基本特征;將提取的基本特征分別輸入概率圖預測模塊和閾值圖預測模塊;概率圖預測模塊和閾值圖預測模塊的組成結構是一致的,均由一個3*3的卷積層和兩個stride為2的反卷積層組成;然后將概率圖和閾值圖輸入二值化模塊,得到二值圖;最后對二值圖找連通區域,得到文本包圍盒。
(1.2.2)生成分割圖和閾值圖的訓練標簽,所述分割圖的訓練標簽被用于概率圖預測模塊生成概率圖,所述閾值圖的訓練標簽被用于閾值圖預測模塊生成閾值圖。對于一幅文字圖片,每個標注的文字區域由多邊形描述,其中n為多邊形的端點數量。為了生成分割圖和閾值圖的訓練標簽,首先通過多邊形內縮算法變換為內縮或外擴的多邊形框。內縮或外擴的距離由框的面積和周長計算得到,表達式為:
其中L是多邊形的周長,A表示多邊形的面積,r是內縮系數。從內縮之后的多邊形框可以得到分割圖的標簽:在多邊形內的像素視為正樣本而其他像素位置視為負樣本。同樣地,從原始多邊形框到內縮和外擴多邊形框之間的區域可以生成閾值圖的漸進標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911038562.4/2.html,轉載請聲明來源鉆瓜專利網。





