[發(fā)明專利]一種基于圖像矩矯正的深度學(xué)習(xí)文本字符檢測方法在審
| 申請?zhí)枺?/td> | 202011506599.8 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112580507A | 公開(公告)日: | 2021-03-30 |
| 發(fā)明(設(shè)計)人: | 田輝;劉其開 | 申請(專利權(quán))人: | 合肥高維數(shù)據(jù)技術(shù)有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 北京知聯(lián)天下知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11594 | 代理人: | 史光偉;張迎新 |
| 地址: | 230088 安徽省合肥市高新區(qū)*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 圖像 矯正 深度 學(xué)習(xí) 文本 字符 檢測 方法 | ||
1.一種基于圖像矩矯正的深度學(xué)習(xí)文本字符檢測方法,其特征在于,所述方法包括以下步驟:
A:數(shù)據(jù)集準備,對所述數(shù)據(jù)集中隨機采樣的樣本進行預(yù)標注,保存所述樣本每個字符的box框;
B:人工修正預(yù)標注不準的所述box框,根據(jù)所述box框生成高斯熱圖形式的熱圖標簽;
C:定義神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)losscross;
D:采用所述步驟C中的所確定的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)losscross進行初步的預(yù)訓(xùn)練;
E:擴充實際場景的訓(xùn)練樣本集;
F:對所述步驟E擴充后的訓(xùn)練樣本集進行自適應(yīng)二值化操作,計算每個字符的Hu矩特征向量,取向量均值作為字符的輔助標簽;
G:修改損失函數(shù)形式,添加正則項分支,使用所述擴充后的訓(xùn)練樣本集用修改后損失函數(shù)loss進行微調(diào)訓(xùn)練;
H:模型測試與驗證,通過對所述預(yù)標注生成的高斯熱圖修改其參數(shù)theta,畫出在不同的theta閾值下,字符box框的準確率變化曲線,從而根據(jù)需求選擇合適的參數(shù)theta。
2.根據(jù)權(quán)利要求1所述的一種基于圖像矩矯正的深度學(xué)習(xí)文本字符檢測方法,其特征在于,
所述步驟A中數(shù)據(jù)集主要包括ICDAR2017、ICDAR2019和CTW中的數(shù)據(jù),采用EasyOCR訓(xùn)練的公開字符級分割模型對所述數(shù)據(jù)集中隨機采樣的樣本進行預(yù)標注。
3.根據(jù)權(quán)利要求1所述的一種基于圖像矩矯正的深度學(xué)習(xí)文本字符檢測方法,其特征在于,
所述步驟B中預(yù)標注不準具體指的是所述字符box框過度分割或者是欠分割;
所述過度分割指所述字符box框未將當(dāng)前字符全部納入box框中,所述欠分割是指所述字符box框中除了當(dāng)前字符外還有其它字符或者符號。
4.根據(jù)權(quán)利要求1所述的一種基于圖像矩矯正的深度學(xué)習(xí)文本字符檢測方法,其特征在于,
所述步驟B中采用透視變換將所述box框映射到二維高斯圖上,生成高斯熱圖形式的標簽。
5.根據(jù)權(quán)利要求1所述的一種基于圖像矩矯正的深度學(xué)習(xí)文本字符檢測方法,其特征在于,
所述步驟C中確定神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)具體操作如下:
網(wǎng)絡(luò)輸入預(yù)定大小的樣本,采取VGG16基準網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),U-net作為解碼網(wǎng)絡(luò);
輸出表示置信度區(qū)域的像素得分矩陣;
所述步驟C中損失函數(shù)losscross由以下方法確定:
損失函數(shù)losscross采用像素級的交叉熵損失,即通過對標簽熱圖設(shè)定所述theta閾值,大于所述theta閾值的則認為是字符區(qū)域,用類別1表示,小于所述theta閾值的則為非字符區(qū)域,用類別0表示。
6.根據(jù)權(quán)利要求1-5任一所述的一種基于圖像矩矯正的深度學(xué)習(xí)文本字符檢測方法,其特征在于,
所述步驟E中擴充實際場景的訓(xùn)練樣本集的方法是隨機截圖或不同角度下拍攝電腦屏幕含有文檔的界面,用預(yù)訓(xùn)練好的模型進行預(yù)標注,用所述步驟B中的方式進行人工修正。
7.根據(jù)權(quán)利要求1-5任一所述的一種基于圖像矩矯正的深度學(xué)習(xí)文本字符檢測方法,其特征在于,
所述theta閾值通過以下步驟得到:
對所述熱圖標簽進行高斯平滑處理,計算其梯度圖;
根據(jù)分水嶺算法確定不同閾值下的聯(lián)通區(qū)域,取每個所述聯(lián)通區(qū)域下的最小外接矩形,即為所述閾值下的字符邊框;
隨機統(tǒng)計抽樣多個字,判斷對應(yīng)的不同所述閾值下最小外接邊框的準確性,取準確率最高的所述閾值作為所述theta閾值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于合肥高維數(shù)據(jù)技術(shù)有限公司,未經(jīng)合肥高維數(shù)據(jù)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011506599.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:顯示面板以及顯示裝置
- 下一篇:檢索圖片的方法、裝置和計算機設(shè)備
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





