[發明專利]一種基于OCR的字符分割方法有效
| 申請號: | 202110869780.3 | 申請日: | 2021-07-30 |
| 公開(公告)號: | CN113673511B | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 秦應化;李安;吳昆 | 申請(專利權)人: | 蘇州鼎納自動化技術有限公司 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06V30/19;G06V30/42;G06K9/62 |
| 代理公司: | 蘇州翔遠專利代理事務所(普通合伙) 32251 | 代理人: | 陸金星 |
| 地址: | 215024 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ocr 字符 分割 方法 | ||
1.一種基于OCR的字符分割方法,其特征在于,包括如下步驟:
步驟1,數據收集:基于OCR技術獲取模板字庫,所述模板字庫包括標準字符以及所述標準字符的特征數據,所述特征數據至少包括所述標準字符的灰度、尺寸、長寬比、面積重心、面積以及間距;
步驟2,人工標記:利用OCR技術中的字符識別模型識別與待識別字符同批次的一部分字符,得到字符分割結果,人工檢查所述分割結果,標記所述分割結果中的錯誤項,并將所述錯誤項及其對應的特征數據收錄至所述模板字庫中,根據更新后的所述模板字庫手動修改所述字符識別模型中各個所述特征數據的權重,得到更新后的字符識別模型;
步驟3,預分割:對所述待識別字符進行行掃描,基于更新后的字符識別模型對所述待識別字符進行初始識別,對該字符進行強制分割;步驟3中,對所述字符進行強制分割的依據為:使每行字符的個數與一行能夠容納的標準字符的個數一致;
步驟4,歸一化處理:將經過預分割后的字符的特征數據與所述模板字庫中的特征數據進行歸一化處理;
步驟5,精調分割位置:根據歸一化處理后的特征數據將某個字符和所述標準字符進行匹配,計算得到得分最高的標準字符,基于得分最高的所述標準字符確定當前字符分割的位置;
步驟2中,所述根據更新后的所述模板字庫手動修改所述字符識別模型中各個所述特征數據的權重包括:根據更新后的所述模板字庫統計每種特征數據的數值分布,基于每種特征數據的穩定區間和變化規律手動修改所述權重。
2.如權利要求1所述的基于OCR的字符分割方法,其特征在于,步驟1中,所述基于OCR技術獲取模板字庫的方法包括:收集所述標準字符的圖片,利用所述OCR技術分割得到所述模板字庫。
3.如權利要求1所述的基于OCR的字符分割方法,其特征在于,步驟2中,利用字符識別模型識別與待識別字符同批次的字符的數量為20~1000。
4.如權利要求1所述的基于OCR的字符分割方法,其特征在于,步驟3中,對所述待識別字符進行行掃描包括:設置以一個像素為掃描寬度,進行每一行字符的掃描。
5.如權利要求1所述的基于OCR的字符分割方法,其特征在于,步驟5中,在根據歸一化處理后的特征數據將某個字符和所述標準字符進行匹配之前,先獲取所述字符的特征點,并進行過濾處理。
6.如權利要求5所述的基于OCR的字符分割方法,其特征在于,對所述字符的特征點進行過濾的條件包括:所述特征點的大小小于第二閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州鼎納自動化技術有限公司,未經蘇州鼎納自動化技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110869780.3/1.html,轉載請聲明來源鉆瓜專利網。





