[發明專利]一種基于OCR的字符分割方法有效
| 申請號: | 202110869780.3 | 申請日: | 2021-07-30 |
| 公開(公告)號: | CN113673511B | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 秦應化;李安;吳昆 | 申請(專利權)人: | 蘇州鼎納自動化技術有限公司 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06V30/19;G06V30/42;G06K9/62 |
| 代理公司: | 蘇州翔遠專利代理事務所(普通合伙) 32251 | 代理人: | 陸金星 |
| 地址: | 215024 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ocr 字符 分割 方法 | ||
本發明涉及一種基于OCR的字符分割方法,包括:步驟1:基于OCR技術獲取模板字庫,模板字庫包括標準字符及標準字符的特征數據;步驟2:利用OCR技術中的字符識別模型識別與待識別字符同批次的一部分字符,得到字符分割結果,人工標記分割結果中的錯誤項,并更新字符識別模型;步驟3:對待識別字符進行行掃描,基于更新后的字符識別模型對待識別字符進行初始識別,當某個字符的識別結果的得分小于第一閾值,則對該字符進行強制分割;步驟4:歸一化處理;步驟5:根據歸一化處理后的特征數據將某個字符和標準字符進行匹配,計算得到得分最高的標準字符,基于得分最高的標準字符確定當前字符分割的位置。本發明能夠提高字符分割的精確度。
技術領域
本發明涉及光學字符識別領域,尤其涉及一種基于OCR的字符分割方法。
背景技術
在印刷文字、鐳射打標等與光學字符識別相關的領域中,OCR(Optical CharacterRecognition,光學字符識別)都起著重要作用。目前每種產品上幾乎都帶有生產批號等類似信息,為了保證產品的可追溯性通常都需要用到OCR 技術。但是在實際打印文字信息時,由于不同的打印環境(運動打印、印刷,不同設備打印出現的不一致),會出現文字的變形、間距變化、尺寸變化等一些情況,當根據傳統的OCR字符庫中的標準字符訓練好模型之后,模型很容易由于上述情況出現將兩個字符合并成了一個或將一個字符切割成了兩個的情況,繼而會導致識別率降低。
因此,如何提供一種操作簡單且能夠提高后續字符識別率的基于OCR的字符分割方法是本領域技術人員亟待解決的一個技術問題。
發明內容
本發明提供一種基于OCR的字符分割方法,以解決上述技術問題。
為解決上述技術問題,本發明提供一種基于OCR的字符分割方法,包括如下步驟:
步驟1,數據收集:基于OCR技術獲取模板字庫,所述模板字庫包括標準字符以及所述標準字符的特征數據,所述特征數據至少包括所述標準字符的灰度、尺寸、長寬比、面積重心、面積以及間距;
步驟2,人工標記:利用OCR技術中的字符識別模型識別與待識別字符同批次的一部分字符,得到字符分割結果,人工檢查所述分割結果,標記所述分割結果中的錯誤項,并將所述錯誤項及其對應的特征數據收錄至所述模板字庫中,根據更新后的所述模板字庫手動修改所述字符識別模型中各個所述特征數據的權重,得到更新后的字符識別模型;
步驟3,預分割:對所述待識別字符進行行掃描,基于更新后的字符識別模型對所述待識別字符進行初始識別,當某個字符的識別結果的得分小于第一閾值,則對該字符進行強制分割;
步驟4,歸一化處理:將經過預分割后的字符的特征數據與所述模板字庫中的特征數據進行歸一化處理;
步驟5,精調分割位置:根據歸一化處理后的特征數據將某個字符和所述標準字符進行匹配,計算得到得分最高的標準字符,基于得分最高的所述標準字符確定當前字符分割的位置。
較佳地,步驟1中,所述基于OCR技術獲取模板字庫的方法包括:收集所述標準字符的圖片,利用所述OCR 技術分割得到所述模板字庫。
較佳地,步驟2中,利用字符識別模型識別與待識別字符同批次的字符的數量為20~1000。
較佳地,步驟2中,所述根據更新后的所述模板字庫手動修改所述字符識別模型中各個所述特征數據的權重包括:根據更新后的所述模板字庫統計每種特征數據的數值分布,基于每種特征數據的穩定區間和變化規律手動修改所述權重。
較佳地,步驟3中,對所述待識別字符進行行掃描包括:設置以一個像素為掃描寬度,進行每一行字符的掃描。
較佳地,步驟3中,對所述字符進行強制分割的依據為:使每行字符的個數與一行能夠容納的標準字符的個數一致。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州鼎納自動化技術有限公司,未經蘇州鼎納自動化技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110869780.3/2.html,轉載請聲明來源鉆瓜專利網。





