[發明專利]基于OCR的案件文本識別方法及電子設備在審
| 申請號: | 202110304175.1 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN112861842A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 朵思惟;余梓飛;張艷麗;王斐 | 申請(專利權)人: | 天津匯智星源信息技術有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/62 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 孫曉鳳 |
| 地址: | 300384 天津市濱海新區華苑產*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 ocr 案件 文本 識別 方法 電子設備 | ||
1.一種基于OCR的案件文本識別方法,包括:
利用由案卷圖片樣本集中的初始已標注樣本構成的初始訓練集,對目標檢測模型進行預訓練;
利用經過預訓練的所述目標檢測模型,對所述案卷圖片樣本集中的多個未標注樣本進行主動學習,以從所述多個未標注樣本中選取具有樣式代表性的核心樣本集供人工標注;
響應于接收到已標注的所述核心樣本集,將已標注的所述核心樣本集與所述初始訓練集合并成標注樣本集;
基于所述標注樣本集,利用半監督學習方法對經過預訓練的所述目標檢測模型進行迭代訓練,直至確定所述目標檢測模型符合預定要求。
2.根據權利要求1所述的方法,還包括:
在對所述目標檢測模型進行預訓練之前,對所述初始訓練集進行數據增強處理。
3.根據權利要求2所述的方法,還包括:
在將已標注的所述核心樣本集與所述初始訓練集合并成所述標注樣本集之前,對已標注的所述核心樣本集進行所述數據增強處理,
其中,將已標注的所述核心樣本集與所述初始訓練集合并成所述標注樣本集包括:將經過所述數據增強處理的已標注的所述核心樣本集與經過所述數據增強處理的所述初始訓練集合并成所述標注樣本集。
4.根據權利要求1所述的方法,其中,所述標注樣本集中對每個目標的類別標注信息僅指示該目標是否為文本。
5.根據權利要求1至4中任一項所述的方法,其中,
所述目標檢測模型包括YOLOv4模型,其中引入了水平瘦長的第一類錨框和豎直瘦長的第二類錨框。
6.根據權利要求5所述的方法,其中,從所述多個未標注樣本中選取所述核心樣本集包括:
對于通過主動學習而在所述多個未標注樣本中檢測到的多個檢測框中的每個檢測框,基于該檢測框的置信度而計算該檢測框的分類不確定性;
將所述多個檢測框按照各自的所述分類不確定性從大到小的順序排序;
選取排序后的所述多個檢測框中的前N個檢測框,將所述多個未標注樣本中與所述前N個檢測框分別對應的未標注樣本作為所述核心樣本集,其中N表示預設數量。
7.根據權利要求1至4中任一項所述的方法,其中,利用半監督學習方法對經過預訓練的所述目標檢測模型進行迭代訓練包括:
迭代地執行下列操作,直至確定所述目標檢測模型符合所述預定要求:
利用所述標注樣本集對所述目標檢測模型進行中間訓練;
使用經過中間訓練的所述目標檢測模型,對所述案卷圖片樣本集中去除所述標注樣本集后剩余的暫時未標注樣本集進行預測,得到多個標簽及其對應的置信度;
選取所述暫時未標注樣本集中所述置信度超過預定閾值的暫時未標注樣本,將所述暫時未標注樣本及其對應的所述標簽補充到所述標注樣本集中。
8.一種案卷文本識別方法,包括:
利用預先以根據權利要求1至7中任一項所述的方法訓練好的目標檢測模型,從獲取的案卷圖片中檢測出文本框;
利用預定的文本識別模型,識別出所述文本框中的文本。
9.根據權利要求8所述的方法,其中,所述文本識別模型包括卷積循環神經網絡CRNN模型。
10.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可由所述處理器執行的計算機程序,其中,所述處理器在執行所述計算機程序時實現根據權利要求8或9所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津匯智星源信息技術有限公司,未經天津匯智星源信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110304175.1/1.html,轉載請聲明來源鉆瓜專利網。





