[發明專利]易混淆字符識別模型訓練方法和裝置有效

申請號：	201710427954.4	申請日：	2017-06-08
公開（公告）號：	CN109034166B	公開（公告）日：	2021-09-24
發明（設計）人：	田鳳彬	申請（專利權）人：	北京君正集成電路股份有限公司
主分類號：	G06K9/46	分類號：	G06K9/46;G06K9/62
代理公司：	北京智為時代知識產權代理事務所(普通合伙) 11498	代理人：	王加嶺;楊靜
地址：	100094 北京市海淀區西***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	混淆字符識別模型訓練方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供了一種易混淆字符識別模型訓練方法和裝置，其中，該方法包括：獲取目標易混淆字符的訓練樣本，將訓練樣本增加至訓練集中；對所述訓練集中的各個訓練樣本進行網格劃分，并獲取目標網格塊的網格特征；獲取所述訓練集中各個訓練樣本的深度特征、曲度特征和直線特征；根據所述網格特征、深度特征、曲度特征和直線特征，采用多閾值訓練方式，訓練得到易混淆字符識別模型。本發明解決了現有的字符識別模型所存在的易混淆字符難以識別的技術問題，達到了準確有效識別易混淆字符的技術效果。

技術領域

本發明涉及機器識別技術領域，特別涉及一種易混淆字符識別模型訓練方法和裝置。

背景技術

目前，在字符識別領域已經得到了很大的發展。但是，因為有些字符較為相似，例如，在車牌中，2和Z是相似的，經常會被混淆。如果實現對易混淆字符的識別，目前尚未提出有效的解決方式。

對于這些易于混淆的字符，如果無法有效進行區分識別，往往會導致最終的識別結果出現錯誤。

針對該問題，目前尚未提出有效的解決方案。

發明內容

本發明實施例提供了一種易混淆字符識別模型訓練方法，以使得訓練得到的易混淆字符識別模型對易混淆字符的準確區分的技術效果，該方法包括：

獲取目標易混淆字符的訓練樣本，將訓練樣本增加至訓練集中；

對所述訓練集中的各個訓練樣本進行網格劃分，并獲取目標網格塊的網格特征；

獲取所述訓練集中各個訓練樣本的深度特征、曲度特征和直線特征；

根據所述網格特征、深度特征、曲度特征和直線特征，采用多閾值訓練方式，訓練得到易混淆字符識別模型。

在一個實施方式中，在對所述訓練集中的各個訓練樣本進行網格劃分，并獲取目標網格塊的網格特征之前，所述方法還包括：

對所述訓練集中的各個訓練樣本中字符，計算字符的外接矩形。

在一個實施方式中，易混淆字符包括以下一對或多對：0、D和Q，8和B，2和Z，5和S。

在一個實施方式中，在所述易混淆字符為0、D和Q的情況下，對所述訓練集中的各個訓練樣本進行網格劃分，包括，將訓練樣本中的字符平分為16個網格塊；

在所述易混淆字符為8和B，2和Z，或者，5和S情況下，對所述訓練集中的各個訓練樣本進行網格劃分，包括，將訓練樣本中的字符平分為9個網格塊。

在一個實施方式中，在所述易混淆字符為0、D和Q的情況下，深度特征為從字符頂端算起，六分之一處到六分之五處，從左向右，從0到四分之一處的深度值；曲度特征為從字符頂端算起，六分之一處到六分之五處，從左向右，從0到四分之一處的曲度值；直線長度特征為從字符頂端算起，七分之一處到七分之六處，從左向右，從0到四分之一處的直線長度；

在所述易混淆字符為8和B的情況下，深度特征為從字符頂端向下算起，0到四分之一處，從左向右，從0到五分之三處的深度值；曲度特征為從字符頂端向下算起，0到四分之一處，從左向右，從0到五分之三處的曲度值；直線長度特征為從字符頂端算起，七分之一處到七分之六處，從左向右，從0到四分之一處的直線長度；

在所述易混淆字符為2和Z的情況下，深度特征為從字符頂端向下算起，0到五分之一處，從左向右，從0到五分之四處的深度值；曲度特征為從字符頂端向下算起，0到五分之一處，從左向右，從0到五分之四處的曲度值；直線長度特征為從字符頂端算起，0處到七分之一處，從左向右，從0到五分之四處的直線長度；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京君正集成電路股份有限公司，未經北京君正集成電路股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710427954.4/2.html，轉載請聲明來源鉆瓜專利網。