[發明專利]一種基于OCR的數據處理方法、系統、平臺、設備及介質在審
| 申請號: | 202010315759.4 | 申請日: | 2020-04-21 |
| 公開(公告)號: | CN111539309A | 公開(公告)日: | 2020-08-14 |
| 發明(設計)人: | 姚志強;周曦;司法;許梅芳;李繼偉 | 申請(專利權)人: | 廣州云從鼎望科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34;G06K9/62;G06F16/951 |
| 代理公司: | 上海光華專利事務所(普通合伙) 31219 | 代理人: | 代玲 |
| 地址: | 511458 廣東省廣州市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ocr 數據處理 方法 系統 平臺 設備 介質 | ||
1.一種基于OCR的數據處理方法,其特征在于,包括以下步驟:
對預先標注的數據進行訓練,生成預訓練模型;
通過所述預訓練模型對未標注的數據進行標注,生成訓練數據集;
根據所述訓練數據集進行訓練,生成用于識別目標數據的識別模型。
2.根據權利要求1所述的基于OCR的數據處理方法,其特征在于,預先標注的數據包括以下至少之一:票據圖像、票證圖像、證件圖像、單據圖像。
3.根據權利要求1所述的基于OCR的數據處理方法,其特征在于,預先標注數據的方式包括以下至少之一:通過人工進行標注、通過自定義模板自動生成標注、通過爬取進行標注。
4.根據權利要求3所述的基于OCR的數據處理方法,其特征在于,所述標注包括以下至少之一:框選原始圖像中待識別區域、記錄原始圖像中文本框的內容。
5.根據權利要求1或2所述的基于OCR的數據處理方法,其特征在于,所述目標數據包括以下至少之一:真實產線環境中的票據、真實產線環境中的票證、真實產線環境中的證件、真實產線環境中的單據。
6.根據權利要求1所述的基于OCR的數據處理方法,其特征在于,對預先標注的數據進行訓練和/或根據訓練數據集進行訓練,所述訓練包括以下至少之一:版式分析、文本檢測、文本識別。
7.根據權利要求6所述的基于OCR的數據處理方法,其特征在于,
對預先標注的數據進行訓練,獲取文字像素級的特征;
根據所述文字像素級的特征定位待識別的文本行,獲取文本行切片;
識別所述文本行切片,生成多個預訓練數據;
將所述多個預訓練數據進行合成,根據合成后的預訓練數據訓練出預訓練模型。
8.根據權利要求6所述的基于OCR的數據處理方法,其特征在于,所述版式分析包括以下至少之一:預處理、轉正、矯正。
9.根據權利要求7所述的基于OCR的數據處理方法,其特征在于,識別所述文本行切片,通過在線數據增強方法、生成對抗神經網絡生成多個預訓練數據。
10.根據權利要求1或7所述的基于OCR的數據處理方法,其特征在于,
調度生成的預訓練模型;
通過所述預訓練模型對未標注數據進行自動標注;
對自動標注后的數據進行復核,生成本輪訓練數據集;
將本輪訓練數據集與原訓練數據集進行合并,生成下一輪訓練數據集;
根據所述下一輪訓練數據集進行訓練,生成用于識別目標數據的識別模型。
11.根據權利要求6所述的基于OCR的數據處理方法,其特征在于,訓練過程中,通過配置訓練參數,并根據準確率和/或時間控制訓練過程。
12.根據權利要求1所述的基于OCR的數據處理方法,其特征在于,還包括根據預先限定的多組特征集、模型參數、函數范圍自動搜索最優模型訓練組合,根據所述最優模型訓練組合生成用于識別目標數據的識別模型。
13.根據權利要求1或12所述的基于OCR的數據處理方法,其特征在于,生成用于識別目標數據的識別模型后,還包括:
導出所述識別模型,并對導出的識別模型進行集成;和/或,調用所述識別模型。
14.一種基于OCR的數據處理系統,其特征在于,包括有:
第一訓練模塊,用于對預先標注的數據進行訓練,生成預訓練模型;
標注模塊,用于通過所述預訓練模型對未標注的數據進行標注,生成訓練數據集;
第二訓練模塊,根據所述訓練數據集進行訓練,生成用于識別目標數據的識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州云從鼎望科技有限公司,未經廣州云從鼎望科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010315759.4/1.html,轉載請聲明來源鉆瓜專利網。





