[發明專利]一種基于OCR的數據處理方法、系統、平臺、設備及介質在審
| 申請號: | 202010315759.4 | 申請日: | 2020-04-21 |
| 公開(公告)號: | CN111539309A | 公開(公告)日: | 2020-08-14 |
| 發明(設計)人: | 姚志強;周曦;司法;許梅芳;李繼偉 | 申請(專利權)人: | 廣州云從鼎望科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34;G06K9/62;G06F16/951 |
| 代理公司: | 上海光華專利事務所(普通合伙) 31219 | 代理人: | 代玲 |
| 地址: | 511458 廣東省廣州市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ocr 數據處理 方法 系統 平臺 設備 介質 | ||
本發明提供一種基于OCR的數據處理方法、系統、平臺、設備及介質,首先通過對預先標注的數據進行訓練,生成預訓練模型;再通過所述預訓練模型對未標注的數據進行標注,生成訓練數據集;最后根據所述訓練數據集進行訓練,生成用于識別目標數據的識別模型。本發明能夠用極少的標注數據完成邊訓練邊標注,并且能夠通過該識別模型來識別真實產線環境下的目標數據,其中目標數據包括但不限于證件圖像、單據圖像、票據圖像,使得本發明中的識別模型能夠識別真實產線環境中的證件、單據、票據等。同時,本發明的訓練過程是端對端的開發,而端對端的開發只需要2天,在開發周期方面比現有技術提升了一個量級。
技術領域
本發明涉及數據處理技術領域,特別是涉及一種基于OCR的數據處理方法、系統、平臺、設備及介質。
背景技術
如今,信息及數據能夠產生重大影響,獲取紙面上的結構化信息對于行業的發展及服務的優化有著至關重要的影響。因此,圖像化信息錄入過程繁瑣笨重,浪費人力物力,成為數據應用的瓶頸。
由于地域、主題、領域的不同,各地各種功能的證件、票據、單據呈現出種類紛雜、沒有固定版式特征,且由于版式不統一導致票據結構化信息提取的難度相當大。此外,由于沒有統一的標準,油墨紙張及印刷質量也參差不齊,經常會出現印刷錯位及印章干擾等,保存過程種也會出現折痕或褶皺等,拍照過程也可能出現陰影或反光等問題。而目前的OCR(Optical Character Recognition,光學字符識別)識別算法開發方式開發周期長(一般長達一個月或數個月)、代價大、成本高、落地幾無可能。
發明內容
鑒于以上所述現有技術的缺點,本發明的目的在于提供一種基于OCR的數據處理方法、系統、平臺、設備及介質,用于解決現有技術中存在的問題。
為實現上述目的及其他相關目的,本發明提供一種基于OCR的數據處理方法,包括以下步驟:
對預先標注的數據進行訓練,生成預訓練模型;
通過所述預訓練模型對未標注的數據進行標注,生成訓練數據集;
根據所述訓練數據集進行訓練,生成用于識別目標數據的識別模型。
可選地,預先標注的數據包括以下至少之一:票據圖像、票證圖像、證件圖像、單據圖像。
可選地,預先標注數據的方式包括以下至少之一:通過人工進行標注、通過自定義模板自動生成標注、通過爬取進行標注。
可選地,所述標注包括以下至少之一:框選原始圖像中待識別區域、記錄原始圖像中文本框的內容。
可選地,所述目標數據包括以下至少之一:真實產線環境中的票據、真實產線環境中的票證、真實產線環境中的證件、真實產線環境中的單據。
可選地,對預先標注的數據進行訓練和/或根據訓練數據集進行訓練,所述訓練包括以下至少之一:版式分析、文本檢測、文本識別。
可選地,對預先標注的數據進行訓練,獲取文字像素級的特征;
根據所述文字像素級的特征定位待識別的文本行,獲取文本行切片;
識別所述文本行切片,生成多個預訓練數據;
將所述多個預訓練數據進行合成,根據合成后的預訓練數據訓練出預訓練模型。
可選地,所述版式分析包括以下至少之一:預處理、轉正、矯正。
可選地,識別所述文本行切片,通過在線數據增強方法、生成對抗神經網絡生成多個預訓練數據。
可選地,調度生成的預訓練模型;
通過所述預訓練模型對未標注數據進行自動標注;
對自動標注后的數據進行復核,生成本輪訓練數據集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州云從鼎望科技有限公司,未經廣州云從鼎望科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010315759.4/2.html,轉載請聲明來源鉆瓜專利網。





