[發明專利]基于YOLOv7算法的OCR字符檢測方法及裝置在審
| 申請號: | 202211170987.2 | 申請日: | 2022-09-23 |
| 公開(公告)號: | CN115527210A | 公開(公告)日: | 2022-12-27 |
| 發明(設計)人: | 姚正;劉超;張慶慶;李建勛;李歡 | 申請(專利權)人: | 昆山佰奧軟件有限公司 |
| 主分類號: | G06V30/146 | 分類號: | G06V30/146;G06V30/19;G06V10/82;G06N3/04 |
| 代理公司: | 蘇州九方專利代理事務所(特殊普通合伙) 32398 | 代理人: | 張小培 |
| 地址: | 215300 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 yolov7 算法 ocr 字符 檢測 方法 裝置 | ||
1.一種基于YOLOv7算法的OCR字符檢測方法,其特征在于:包括:
構建OCR字符檢測網絡模型(1),所述OCR字符檢測網絡模型(1)采用YOLOv7網絡結構作為基礎框架,并在YOLOv7網絡結構的骨干特征提取網絡(10)中采用深度可分離卷積運算方式進行深層特征提取,以及在YOLOv7網絡結構的頭部預測模塊(11)中嵌入SE注意力機制模塊進行關鍵特征的顯化和提取;
建立訓練集(20)和驗證集(21),用于所述OCR字符檢測網絡模型(1)進行訓練學習和檢測驗證;
配置調用及部署模塊(3),用于將訓練好的所述OCR字符檢測網絡模型(1)轉化成統一文件格式的通用模型,并將所述通用模型部署到工程平臺中后,對所述訓練集(20)和/或所述驗證集(21)進行檢測、輸出OCR字符預測結果。
2.根據權利要求1所述的基于YOLOv7算法的OCR字符檢測方法,其特征在于:所述骨干特征提取網絡(10)具有四組均由深度可分離卷積層、批歸一化層BN和激活函數SiLu組成的第一CBS模塊(100)、以及三組均由MP1模塊和ELAN模塊組成的第一組合模塊(101),四組所述第一CBS模塊(100)和三組所述第一組合模塊(101)按照數據處理順序依次排布,三組所述第一組合模塊(101)分別輸出特征圖,且三組所述第一組合模塊(101)輸出的特征圖大小不相同;
所述頭部預測模塊(11)具有由SPPCSPC模塊、兩個UP模塊、四個ELAN-H模塊和兩個MP2模塊組成的第二組合模塊(110)、以及三組均由REP模塊和CONV模塊組成的第三組合模塊(111),所述第二組合模塊(110)用于接收、融合三組所述第一組合模塊(101)輸出的特征圖,獲得三組融合特征結果;三組所述第三組合模塊(111)分別用于接收、處理三組所述融合特征結果,以得到三組尺寸大小不相同的網絡預測結果;另外,在所述SPPCSPC模塊中嵌入有所述SE注意力機制模塊。
3.根據權利要求2所述的基于YOLOv7算法的OCR字符檢測方法,其特征在于:所述深度可分離卷積層包括卷積核大小為3×3的深度可分離卷積、及卷積核大小為1×1的逐點卷積;
在每一所述第一組合模塊(101)中,所述MP1模塊由三個第二CBS模塊和一個最大化池化層組成,所述ELAN模塊由七個第三CBS模塊和一個全連接層組成,且所述第二CBS模塊和所述第三CBS模塊的結構均分別與所述第一CBS模塊(100)的結構相同。
4.根據權利要求2所述的基于YOLOv7算法的OCR字符檢測方法,其特征在于:所述SPPCSPC模塊由七個第四CBS模塊、三個最大池化層和所述SE注意力機制模塊組成,所述MP2模塊由三個第五CBS模塊和一個最大化池化層組成,且所述第四CBS模塊和所述第五CBS模塊的結構亦分別與所述第一CBS模塊(100)的結構相同。
5.根據權利要求1所述的基于YOLOv7算法的OCR字符檢測方法,其特征在于:建立所述訓練集(20)和所述驗證集(21)的方法,包括:
獲取若干帶有OCR字符的目標物圖片;
對所得目標物圖片進行標注,獲得對應的標注框;并將標注后的所述目標物圖片劃分為訓練樣本集和驗證樣本集;
對所得訓練樣本集進行增強處理,得到所述訓練集(20);
所述驗證樣本集直接用作為所述驗證集(21)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆山佰奧軟件有限公司,未經昆山佰奧軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211170987.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:斜坡信號發生電路、圖像傳感器以及讀出電路
- 下一篇:多次蒸煮的馬蹄糕生產設備





