[發明專利]OCR識別結果的糾正方法和裝置在審
| 申請號: | 201710245168.2 | 申請日: | 2017-04-14 |
| 公開(公告)號: | CN107220639A | 公開(公告)日: | 2017-09-29 |
| 發明(設計)人: | 李健;徐亮;伍更新;張連毅;武衛東 | 申請(專利權)人: | 北京捷通華聲科技股份有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/62 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司11319 | 代理人: | 蘇培華 |
| 地址: | 100193 北京市海淀區東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | ocr 識別 結果 糾正 方法 裝置 | ||
技術領域
本發明涉及字符校對技術領域,特別是涉及一種OCR識別結果的糾正方法和裝置。
背景技術
光學字符識別(Optical Character Recognition,OCR)技術,是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;即,針對印刷體字符,采用光學的方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯加工的技術。
由于光學字符識別往往需要識別很多字符,即使單個字符的識別準確率較高,但是若要識別包含成百上千個字符的圖像,將會造成圖像識別的準確率較低。而且,在光學字符識別過程中,因個別字符識別錯誤所導致的整個字符串錯誤是一種常見現象。這種情況會很大程度上會影響針對整體待識別字符的識別準確率。
因此,在現有技術中,當采用OCR技術對待識別字符識別完成后,為了保證識別準確率,還需要人工的對識別結果進行糾正,從而降低了字符識別的自動化程度,增加了人工校對成本,影響了交互體驗。
發明內容
本發明提供了一種OCR識別結果的糾正方法和裝置,以解決現有技術中對識別準確率較低的OCR識別結果進行人工校正時所存在的自動化識別程度低、人工校對成本高的問題。
為了解決上述問題,根據本發明的一個方面,本發明公開了一種OCR識別結果的糾正方法,包括:
采用OCR技術對紙質文檔中目標區域內的待識別字符進行識別,獲取初始識別結果字符串str;
根據所述待識別字符在所述紙質文檔中的屬性以及所述屬性的屬性值的預先設定字符范圍,構造符合所述預先設定字符范圍的多個候選字符串stri以構成候選字符串集合;
依次計算所述初始識別結果字符串str與所述候選字符串集合中的每個候選字符串stri的最小編輯距離dmin;
利用所述最小編輯距離dmin,按照以下相似度公式計算所述初始識別結果字符串str與每個候選字符串stri的相似度Si,相似度Si=1-dmin/max(p,q),其中,p為所述初始識別結果字符串str的字符串長度,q為所述候選字符串集合中每個候選字符串stri的字符串長度,其中,不同字符串長度的候選字符串的q值不同;
將最大的相似度Smax所對應的候選字符串strj輸出為對所述初始識別結果字符串str的糾正結果。
根據本發明的另一方面,本發明還公開了一種OCR識別結果的糾正裝置,包括:
OCR識別模塊,用于采用OCR技術對紙質文檔中目標區域內的待識別字符進行識別,獲取初始識別結果字符串str;
候選字符串構造模塊,用于根據所述待識別字符在所述紙質文檔中的屬性以及所述屬性的屬性值的預先設定字符范圍,構造符合所述預先設定字符范圍的多個候選字符串stri以構成候選字符串集合;
距離計算模塊,用于依次計算所述初始識別結果字符串str與所述候選字符串集合中的每個候選字符串stri的最小編輯距離dmin;
相似度計算模塊,用于利用所述最小編輯距離dmin,按照以下相似度公式計算所述初始識別結果字符串str與每個候選字符串stri的相似度Si,相似度Si=1-dmin/max(p,q),其中,p為所述初始識別結果字符串str的字符串長度,q為所述候選字符串集合中每個候選字符串stri的字符串長度,其中,不同字符串長度的候選字符串的q值不同;
結果糾正輸出模塊,用于將最大的相似度Smax所對應的候選字符串strj輸出為對所述初始識別結果字符串str的糾正結果。
與現有技術相比,本發明包括以下優點:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京捷通華聲科技股份有限公司,未經北京捷通華聲科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710245168.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種盾構機隧道異型管片吊運裝置
- 下一篇:一種鋁蜂窩板的制備方法





