[發明專利]一種基于建模的OCR識別結果判決方法和設備有效
| 申請號: | 201910323742.0 | 申請日: | 2019-04-22 |
| 公開(公告)號: | CN110059705B | 公開(公告)日: | 2021-11-09 |
| 發明(設計)人: | 郝占龍;莊國金;陳文傳;杜保發;林玉玲;吳建杭;方恒凱 | 申請(專利權)人: | 廈門商集網絡科技有限責任公司 |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46;G06K9/34 |
| 代理公司: | 福州科揚專利事務所(普通合伙) 35001 | 代理人: | 何小星 |
| 地址: | 361101 福建省廈*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 建模 ocr 識別 結果 判決 方法 設備 | ||
本發明涉及一種基于建模的OCR識別結果判決方法,包括如下步驟:建立字符圖像的特征提取模型;將確認無誤的各字符圖像輸入所述特征提取模型,得到各個字符對應的標準特征矩陣,建立包含所述標準特征矩陣的標準字符特征庫;通過OCR識別引擎識別文本,得到OCR識別圖像;通過所述特征提取模型獲得OCR識別圖像中各字符的單字符特征矩陣;逐一將字符的單字符特征矩陣與該字符對應的標準字符特矩陣進行比較,判定OCR識別結果的正確性。本發明的優點:建立字符圖像的特征提取模型并利用該模型將圖像轉換為特征矩陣,比較識別結果圖像中各字符圖像的特征矩陣與對應標準特征矩陣,從而判定識別結果的正確性,使識別結果精確率高于99.95%,且提高工作效率。
技術領域
本發明涉及一種基于建模的OCR識別結果判決方法,屬于模型應用領域。
背景技術
現有的文本、圖像一般通過自動識別錄入計算機。由于OCR識別算法的識別準確率可達99%,因此,一般通過OCR識別實現自動錄入。但在金融稅務等領域,99%的識別準確率仍無法滿足其要求,因此,還必須使用人工進行二次、甚至三次的識別結果核對工作,找出識別錯誤的位置,這樣浪費了大量人力資源,提高了錄入成本。
公布號為CN106650715A的發明專利《一種根據允許集對字符串OCR識別結果檢錯與糾錯的方法》公開的技術方案是:通過對允許集和OCR識別結果集作差,可以獲得識別錯誤的字符串;利用字符串的允許集,可以糾正不可存在字符串。該技術方案必須事先確定其允許集合,隨著識別文本的變化,必須同步更新允許集,操作復雜且使用范圍受限,不能同時對各種文本的OCR識別結果進行檢錯、糾錯。
發明內容
為了解決上述技術問題,本發明提供一種基于建模的判決方法,其能夠自對自動識別結果進行核驗,判斷識別結果的正確性,且能夠大幅提高OCR識別結果的精確率。
本發明的技術方案如下:
一種基于建模的OCR識別結果判決方法,包括如下步驟:
建立字符圖像的特征提取模型;將標準的各字符圖像輸入所述特征提取模型,得到各個字符對應的標準特征矩陣,建立包含所述標準特征矩陣的標準字符特征庫;通過OCR識別引擎識別文本,得到OCR識別圖像;通過所述特征提取模型獲得OCR識別圖像中各字符的單字符特征矩陣;逐一將字符的單字符特征矩陣與該字符對應的標準字符特矩陣進行比較,判斷二者之間的相似度,判定OCR識別結果的正確性。
更優地,特征提取模型獲得所述單字符特征矩陣的步驟為:將OCR識別圖像進行單字符切割,生成單字符圖像,將各單字符圖像逐個輸入所述特征提取模型得到單字符特征矩陣。
更優地,所述OCR識別圖像進行單字符切割,生成單字符圖像的同時,還生成單字符圖像在OCR識別圖像中的坐標信息;判定字符識別錯誤時,根據該單字符圖像的坐標信息在OCR識別圖像中定位出錯位置并提示用戶。
更優地,所述特征提取模型為Lenet、AlexNet、VggNet、ResNet、GoogLeNet其中一種卷積神經網絡。
更優地,所述特征提取模型采用softmax損失函數,使用單字符樣本訓練所述特征提取模型,所述softmax損失函數的值不再減少,完成模型收斂。
更優地,所述將單字符特征矩陣與該單字符對應的標準字符特矩陣進行比較的步驟為:通過歐氏距離,余弦距離或馬氏距離計算單字符特征矩陣與該單字符對應的標準字符特矩陣的相似度,當相似度值小于預設的閾值時,判定該字符識別正確。
更優地,所述將單字符特征矩陣與該單字符對應的標準字符特矩陣進行比較是采用軟閾值模型進行判決,所述軟閾值模型為:y=f(S,P),其中,y為判決結果,函數為非線性函數或線性函數,S表示標準特征矩陣,P表示單字符特征矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門商集網絡科技有限責任公司,未經廈門商集網絡科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910323742.0/2.html,轉載請聲明來源鉆瓜專利網。





