[發(fā)明專利]基于OCR的案件文本識別方法及電子設備在審
| 申請?zhí)枺?/td> | 202110304175.1 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN112861842A | 公開(公告)日: | 2021-05-28 |
| 發(fā)明(設計)人: | 朵思惟;余梓飛;張艷麗;王斐 | 申請(專利權)人: | 天津匯智星源信息技術有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/62 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 孫曉鳳 |
| 地址: | 300384 天津市濱海新區(qū)華苑產(chǎn)*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 ocr 案件 文本 識別 方法 電子設備 | ||
本公開提供了一種基于OCR的案件文本識別方法及電子設備。該文本識別方法包括:利用由案卷圖片樣本集中的初始已標注樣本構成的初始訓練集,對目標檢測模型進行預訓練;利用經(jīng)過預訓練的所述目標檢測模型,對多個未標注樣本進行主動學習,以選取具有樣式代表性的核心樣本集供人工標注;將已標注的核心樣本集與初始訓練集合并成標注樣本集;基于所述標注樣本集,利用半監(jiān)督學習方法對所述目標檢測模型進行迭代訓練,直至確定所述目標檢測模型符合預定要求。本公開提供的文本識別方法能夠實現(xiàn)標注樣本的多樣化,同時選取合適的目標檢測模型進行迭代訓練,不斷更新和擴大標注數(shù)據(jù)集,直接降低人工標注樣本的人力和時間損耗。
技術領域
本公開涉及深度學習技術領域,尤其涉及一種基于OCR的案件文本識別方法及電子設備。
背景技術
現(xiàn)有紙質案卷一般通過人工錄入的方式對案卷信息進行結構化處理和保存,以便日后的電子案卷管理和查詢。但這種方式在處理大規(guī)模案卷資料時人力成本過高,且手工錄入也容易出現(xiàn)錯誤。對于結構化且版式簡單的案卷,現(xiàn)有的自動識別技術可以針對待識別案卷固定的幾何位置或特殊的定位符號,通過定位符號或者簡單的集合換算對案卷信息進行提取,并利用光學字符識別技術對字符進行檢測和識別。
實際情況中,案卷版式復雜且樣式繁多,例如案卷中存在的印章、指紋干擾,文字變形等情況。基于深度學習的光學字符識別技術對這類案卷進行文字識別時,需要大量且高質量的標注樣本,但在工業(yè)應用場景中很難獲取大量的標注樣本。若想獲得高精度的預訓練模型的訓練結果,需要大量人工對未標注的樣本進行標注。在已標注案卷樣本有限的情況下,亟需一種通用的方法或設備可以準確有效地自動識別案卷中的文本信息。
發(fā)明內容
有鑒于此,本公開的目的在于提出一種基于OCR的案件文本識別方法及電子設備。
基于上述目的,本公開提供了一種基于OCR的案件文本識別方法,包括:
利用由案卷圖片樣本集中的初始已標注樣本構成的初始訓練集,對目標檢測模型進行預訓練;
利用經(jīng)過預訓練的所述目標檢測模型,對所述案卷圖片樣本集中的多個未標注樣本進行主動學習,以從所述多個未標注樣本中選取具有樣式代表性的核心樣本集供人工標注;
響應于接收到已標注的所述核心樣本集,將已標注的所述核心樣本集與所述初始訓練集合并成標注樣本集;
基于所述標注樣本集,利用半監(jiān)督學習方法對經(jīng)過預訓練的所述目標檢測模型進行迭代訓練,直至確定所述目標檢測模型符合預定要求。
本公開還提供了一種案卷文本識別方法,包括:
利用預先以根據(jù)如上所述基于OCR的案件文本識別方法訓練好的目標檢測模型,從獲取的案卷圖片中檢測出文本框;
利用預定的文本識別模型,識別出所述文本框中的文本。
本公開還提供了一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可由所述處理器執(zhí)行的計算機程序,其中,所述處理器在執(zhí)行所述計算機程序時實現(xiàn)如上所述案卷文本識別方法。
從上面所述可以看出,本公開提供的一種用目標檢測模型訓練方法、案卷文本識別方法及電子設備,利用主動學習的方式使標注樣本盡量涵蓋所有可能的樣式,且每種樣式都包含足夠多的樣本,減少人工標注的成本。同時,通過半監(jiān)督學習的方式,選取合適的文本檢測模型進行迭代訓練,不斷更新和擴大標注數(shù)據(jù)集,提升模型性能,實現(xiàn)對案卷圖片較為精準的標注,直接降低人工標注樣本的人力和時間損耗。
附圖說明
為了更清楚地說明本公開或相關技術中的技術方案,下面將對實施例或相關技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本公開的實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津匯智星源信息技術有限公司,未經(jīng)天津匯智星源信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110304175.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





