[發明專利]一種基于級聯神經網絡的文字檢測方法、裝置及存儲介質有效
| 申請號: | 202011238231.8 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112348015B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 吳婷婷;汪泰伸;陳德意;吳志鵬;劉彩玲;高志鵬;趙建強 | 申請(專利權)人: | 廈門市美亞柏科信息股份有限公司 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V10/22;G06V10/774;G06V10/764;G06V10/82;G06N3/04;G06N3/08;G06N5/04 |
| 代理公司: | 廈門福貝知識產權代理事務所(普通合伙) 35235 | 代理人: | 陳遠洋 |
| 地址: | 361000 福建省廈門市思明*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 級聯 神經網絡 文字 檢測 方法 裝置 存儲 介質 | ||
1.一種基于級聯神經網絡的文字檢測方法,其特征在于,包括以下步驟:
S1:收集樣本,并根據隨機獲取的裁剪區域與每個文字區域的交并比關系生成類別標簽對所述樣本進行處理生成數據集;
S2:搭建第一全卷積網絡,通過所述數據集對所述第一全卷積網絡進行訓練至網絡收斂,并通過訓練后的所述第一全卷積網絡對所述數據集所述進行推理,獲得回歸結果;
S3:搭建第二全卷積網絡,通過所述回歸結果對所述第二全卷積網絡進行訓練至網絡收斂;以及
S4:將待驗證圖片輸入所述第一全卷積網絡,若所述第一全卷積網絡判斷在滑窗范圍內存在文字,則裁剪下所述滑窗范圍內的區域做雙線性插值尺度變換并輸入所述第二全卷積網絡,通過所述第二全卷積網絡判斷所述區域是否為文字區域。
2.根據權利要求1所述的基于級聯神經網絡的文字檢測方法,其特征在于,所述數據集包括訓練集和驗證集,所述交并比IoU的計算公式如下:
其中,Ai表示文字區域,Bj表示裁剪區域。
3.根據權利要求2所述的基于級聯神經網絡的文字檢測方法,其特征在于,生成所述訓練集和所述驗證集具體包括:
S11:從所述樣本的圖像中隨機裁剪一個方形區域B1,遍歷計算所述方形區域B1與所述圖像上所有文字區域Ai的IoU,若滿足IoU<a,則保存所述方形區域B1,否則丟棄;
S12:遍歷所述圖像中的文字區域Ai,裁剪一個與所述文字區域Ai必然存在交集的所述方形區域B2,若所述文字區域Ai與所述方形區域B2滿足IoU<a,則保存所述方形區域B2,否則丟棄;
S13:將所述步驟S11和S12中獲取的所述方形區域做雙線性插值尺度變換至p*p大小,并設定類別標簽為0;
S14:遍歷所述圖像中的文字區域Ai,以所述文字區域Ai的重心左右偏移k1*w,上下偏移量k2*h獲取中心區域C,其中,k1和k2分別為重心左右偏移和上下偏移的倍數,w和h分別為所述文字區域Ai的寬與高,裁剪一個重心落在所述中心區域C中的矩形區域B3,所述矩形區域B3的寬w1和高h1滿足:
0.8*min(h,w)w1=h11.2*max(h,w);
若所述矩形區域B3與所述文字區域Ai滿足IoU≥c,設定其類別標簽為1,所述滿足b≤IoUc,設定其類別標簽為-1,將所述矩形區域B3做雙線性插值尺度變換至p*p大小,計算所述矩形區域B3與所述文字區域Ai的坐標偏移量作為回歸標簽;以及
S15:分別多次重復步驟S11-S14,得到按照1:2:3的比例混合類別標簽分別為1,-1,0的所述數據集,將所述數據集按10:1的比例分為所述訓練集和所述驗證集。
4.根據權利要求3所述的基于級聯神經網絡的文字檢測方法,其特征在于,所述第一全卷積網絡和所述第二全卷積網絡包括第一損失函數Ldet和第二損失函數Lbox,總損失函數為:
L=αLdet+βLbox;
其中,α、β為權重參數,取值范圍在0-1之間。
5.根據權利要求4所述的基于級聯神經網絡的文字檢測方法,其特征在于,所述第二全卷積網絡的參數量為所述第一全卷積網絡的至少兩倍,所述第一全卷積網絡和所述第二全卷積網絡的所述權重參數分別進行調整設定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門市美亞柏科信息股份有限公司,未經廈門市美亞柏科信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011238231.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種平地龍舟道具
- 下一篇:一種海上架橋機及其施工方法





