[發明專利]一種基于圖像矩矯正的深度學習文本字符檢測方法在審
| 申請號: | 202011506599.8 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112580507A | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 田輝;劉其開 | 申請(專利權)人: | 合肥高維數據技術有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 北京知聯天下知識產權代理事務所(普通合伙) 11594 | 代理人: | 史光偉;張迎新 |
| 地址: | 230088 安徽省合肥市高新區*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 圖像 矯正 深度 學習 文本 字符 檢測 方法 | ||
本發明公開了一種基于圖像矩矯正的深度學習文本字符檢測方法,所述方法具體包括以下步驟:數據集準備、人工修正預標注不準的box框,根據所述box框生成高斯熱圖形式的熱圖標簽、定義神經網絡結構和損失函數、預訓練、擴充實際場景的訓練樣本集、對擴充后的訓練樣本集進行自適應二值化操作,計算每個字符的Hu矩特征向量,取向量均值作為字符的輔助標簽、修改損失函數形式進行微調訓練和模型測試與驗證;該方法通過熱圖標簽和矩特征向量標簽聯合構成優化損失函數,提升了字符box框的準確性,解決了字符邊框過度分割以及欠分割的問題;通過對樣本集擴充后進行預處理,彌補了字符級標注不足的問題,其字符檢測泛化能力更好。
技術領域
本發明屬于目標檢測領域,特別涉及一種基于圖像矩矯正的深度學習文本字符檢測方法。
背景技術
目前,文本檢測在計算機視覺領域有著廣泛的應用,如用于實時翻譯、圖像檢索、場景解析、地理定位、盲導航等,從而在場景理解和文本分析具有極高的應用價值和研究意義。
現有的文本檢測方法分為以下幾類:
1.傳統的圖像處理方法,基于手工設計的特征檢測,如MSER(最大穩定極值區域)和SWT(筆畫寬度變換),該方法主要處理印刷字體以及打印掃描場景的文本檢測,對于自然場景的文本檢測效果較差;
2.基于深度學習的Two-stage方法,生成候選區域并提取對應的特征,進行網絡訓練微調,輸出對應的文本區域框,該方法的優點是精度較高,對小尺度的目標檢測也有不錯的性能,共享計算量,缺點是推理速度慢,訓練周期較長;
3.基于深度學習的One-stage方法,直接略過生成候選框步驟,進行端到端地預測目標的文本區域框,優點是推理速度快,缺點比two-stage的精度低,小目標檢測效果不好。
現有的文本檢測算法技術大部分是基于輸出文本行區域位置坐標,例如現有的文本檢測技術中的基準網絡CTPN基于Two-stage方法進行了改進,在faster RCNN的基礎上,結合了目標文本的水平排列或豎直排列的特殊性改進的,輸出的是文本行區域。現有的文本檢測算法技術并未精確到字符級的文本檢測,因而提供的信息有限。
現有的字符級的文本檢測算法是基于語義分割思想,標簽將高斯中心熱圖替代像素級塊狀熱圖,采用區域得分或緊密型得分兩個指標優化網絡,后處理通過對概率圖進行二值化處理,得到最終的字符邊框。字符級的文本檢測不僅可以輸出單個字符框體坐標,也可以輸出文本行區域的坐標,其輸出的信息更加豐富,可以滿足客戶更大的需求。但現有的字符級文本檢測的算法受參數以及所在的復雜的中文文本場景的影響,分割的字符邊框會出現過度分割或欠分割現象,分別對應于如圖4的矩形框和加黑矩形框。
發明內容
針對上述問題,本發明提出了一種基于圖像矩矯正的深度學習文本字符檢測方法,所述方法包括以下步驟:
A:數據集準備,對所述數據集中隨機采樣的樣本進行預標注,保存所述樣本每個字符的box框;
B:人工修正預標注不準的所述box框,根據所述box框生成高斯熱圖形式的熱圖標簽;
C:定義神經網絡結構和損失函數losscross;
D:采用所述步驟C中的所確定的網絡結構和損失函數losscross進行初步的預訓練;
E:擴充實際場景的訓練樣本集;
F:對所述步驟E擴充后的訓練樣本集進行自適應二值化操作,計算每個字符的Hu矩特征向量,取向量均值作為字符的輔助標簽;
G:修改損失函數形式,添加正則項分支,使用所述擴充后的訓練樣本集用修改后損失函數loss進行微調訓練;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥高維數據技術有限公司,未經合肥高維數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011506599.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:顯示面板以及顯示裝置
- 下一篇:檢索圖片的方法、裝置和計算機設備
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





