[發明專利]用于光學字符識別的訓練數據生成方法、系統和電子設備有效
| 申請號: | 201811112547.5 | 申請日: | 2018-09-21 |
| 公開(公告)號: | CN109272043B | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 郭新然;劉永強;桂晨光;鄧超;王超 | 申請(專利權)人: | 京東數字科技控股有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 趙婷 |
| 地址: | 100176 北京市大興區北京經*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 光學 字符 識別 訓練 數據 生成 方法 系統 電子設備 | ||
1.一種用于光學字符識別的訓練數據生成方法,包括:
獲得文字信息;
獲得背景圖像,所述背景圖像包括從真實場景的圖像中提取的第一背景圖像,以及基于圖像處理方法隨機生成的第二背景圖像;其中,所述基于圖像處理方法隨機生成的第二背景圖像作為背景圖像包括:
獲得文字顏色,包括獲得所述文字顏色在RGB規則下三個分量的值;
獲得顏色差值范圍,所述顏色差值范圍為一預設值;
基于所述文字顏色以及所述顏色差值范圍,確定背景顏色,其中,包括在RGB規則下所述背景顏色與所述文字顏色的三個分量對應差值的平方和大于等于所述預設值的平方;
基于所述背景顏色,生成背景圖像;
以及
基于所述文字信息以及所述背景圖像,生成用于光學字符識別的訓練數據,其中,包括:
組合所述文字信息和所述背景圖像,獲得組合圖像;
處理所述組合圖像,生成用于光學字符識別的訓練數據,其中,所述處理所述組合圖像包括:
將所述組合圖像縮小,然后放大到原始尺寸。
2.根據權利要求1所述的方法,其中,所述基于所述文字信息以及所述背景圖像,生成用于光學字符識別的訓練數據包括:
基于所述文字信息以及所述背景圖像,分批次生成用于光學字符識別的訓練數據,其中,在生成訓練數據的過程中,調整參數使每批次生成的訓練數據的數量增加。
3.根據權利要求1所述的方法,其中,所述獲得文字信息包括以下至少一種:
從字符集中隨機選取多個字符作為文字信息;
從語料庫中隨機抽取連續字符串作為文字信息,
其中,所述方法還包括以下至少一種:
去除所述語料庫中重復的語料;
在所述字符集包括多種字體的字符的情況下,從所述字符集中剔除錯誤字符,所述錯誤字符包括不支持特定字體的特定字符。
4.根據權利要求1所述的方法,其中,所述獲得背景圖像包括:
隨機選用第一方式或第二方式獲得背景圖像,其中,所述第一方式包括從背景庫中選取從真實場景的圖像中提取的第一背景圖像作為背景圖像,所述第二方式包括基于圖像處理方法隨機生成的第二背景圖像作為背景圖像。
5.根據權利要求1所述的方法,其中,其中,所述處理所述組合圖像還包括:
將所述組合圖像按照圖像質量因子存儲為jpg格式,其中,所述圖像質量因子的值設定在預設范圍內。
6.一種用于光學字符識別的訓練數據生成系統,包括:
文字獲得模塊,用于獲得文字信息;
背景獲得模塊,用于獲得背景圖像,所述背景圖像包括從真實場景的圖像中提取的第一背景圖像,以及基于圖像處理方法隨機生成的第二背景圖像;其中,所述基于圖像處理方法隨機生成的第二背景圖像作為背景圖像包括:
獲得文字顏色,包括獲得所述文字顏色在RGB規則下三個分量的值;
獲得顏色差值范圍,所述顏色差值范圍為一預設值;
基于所述文字顏色以及所述顏色差值范圍,確定背景顏色,其中,包括在RGB規則下所述背景顏色與所述文字顏色的三個分量對應差值的平方和大于等于所述預設值的平方;
基于所述背景顏色,生成背景圖像;
以及
數據生成模塊,用于基于所述文字信息以及所述背景圖像,生成用于光學字符識別的訓練數據,其中,包括:
圖像組合子模塊,組合所述文字信息和所述背景圖像,獲得組合圖像;
圖像處理子模塊,處理所述組合圖像,生成用于光學字符識別的訓練數據,其中,所述處理所述組合圖像包括:
將所述組合圖像縮小,然后放大到原始尺寸。
7.根據權利要求6所述的系統,其中,所述數據生成模塊用于:
基于所述文字信息以及所述背景圖像,分批次生成用于光學字符識別的訓練數據,其中,在生成訓練數據的過程中,調整參數使每批次生成的訓練數據的數量增加。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東數字科技控股有限公司,未經京東數字科技控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811112547.5/1.html,轉載請聲明來源鉆瓜專利網。





