[發明專利]一種基于OCR的字符分割方法有效

申請號：	202110869780.3	申請日：	2021-07-30
公開（公告）號：	CN113673511B	公開（公告）日：	2022-03-18
發明（設計）人：	秦應化;李安;吳昆	申請（專利權）人：	蘇州鼎納自動化技術有限公司
主分類號：	G06V30/148	分類號：	G06V30/148;G06V30/19;G06V30/42;G06K9/62
代理公司：	蘇州翔遠專利代理事務所(普通合伙) 32251	代理人：	陸金星
地址：	215024 江蘇省蘇州***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 ocr 字符分割方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于OCR的字符分割方法，其特征在于，包括如下步驟：

步驟1，數據收集：基于OCR技術獲取模板字庫，所述模板字庫包括標準字符以及所述標準字符的特征數據，所述特征數據至少包括所述標準字符的灰度、尺寸、長寬比、面積重心、面積以及間距；

步驟2，人工標記：利用OCR技術中的字符識別模型識別與待識別字符同批次的一部分字符，得到字符分割結果，人工檢查所述分割結果，標記所述分割結果中的錯誤項，并將所述錯誤項及其對應的特征數據收錄至所述模板字庫中，根據更新后的所述模板字庫手動修改所述字符識別模型中各個所述特征數據的權重，得到更新后的字符識別模型；

步驟3，預分割：對所述待識別字符進行行掃描，基于更新后的字符識別模型對所述待識別字符進行初始識別，對該字符進行強制分割；步驟3中，對所述字符進行強制分割的依據為：使每行字符的個數與一行能夠容納的標準字符的個數一致；

步驟4，歸一化處理：將經過預分割后的字符的特征數據與所述模板字庫中的特征數據進行歸一化處理；

步驟5，精調分割位置：根據歸一化處理后的特征數據將某個字符和所述標準字符進行匹配，計算得到得分最高的標準字符，基于得分最高的所述標準字符確定當前字符分割的位置；

步驟2中，所述根據更新后的所述模板字庫手動修改所述字符識別模型中各個所述特征數據的權重包括：根據更新后的所述模板字庫統計每種特征數據的數值分布，基于每種特征數據的穩定區間和變化規律手動修改所述權重。

2.如權利要求1所述的基于OCR的字符分割方法，其特征在于，步驟1中，所述基于OCR技術獲取模板字庫的方法包括：收集所述標準字符的圖片，利用所述OCR技術分割得到所述模板字庫。

3.如權利要求1所述的基于OCR的字符分割方法，其特征在于，步驟2中，利用字符識別模型識別與待識別字符同批次的字符的數量為20~1000。

4.如權利要求1所述的基于OCR的字符分割方法，其特征在于，步驟3中，對所述待識別字符進行行掃描包括：設置以一個像素為掃描寬度，進行每一行字符的掃描。

5.如權利要求1所述的基于OCR的字符分割方法，其特征在于，步驟5中，在根據歸一化處理后的特征數據將某個字符和所述標準字符進行匹配之前，先獲取所述字符的特征點，并進行過濾處理。

6.如權利要求5所述的基于OCR的字符分割方法，其特征在于，對所述字符的特征點進行過濾的條件包括：所述特征點的大小小于第二閾值。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于蘇州鼎納自動化技術有限公司，未經蘇州鼎納自動化技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110869780.3/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種自適應階梯高度的物業樓梯打掃裝置
下一篇：一種KLLD型卡箍連接式電磁流量計

同類專利

專利分類

G 物理

G06 計算；推算；計數

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】