[發明專利]OCR識別結果的糾正方法和裝置在審
| 申請號: | 201710245168.2 | 申請日: | 2017-04-14 |
| 公開(公告)號: | CN107220639A | 公開(公告)日: | 2017-09-29 |
| 發明(設計)人: | 李健;徐亮;伍更新;張連毅;武衛東 | 申請(專利權)人: | 北京捷通華聲科技股份有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/62 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司11319 | 代理人: | 蘇培華 |
| 地址: | 100193 北京市海淀區東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | ocr 識別 結果 糾正 方法 裝置 | ||
1.一種OCR識別結果的糾正方法,其特征在于,包括:
采用OCR技術對紙質文檔中目標區域內的待識別字符進行識別,獲取初始識別結果字符串str;
根據所述待識別字符在所述紙質文檔中的屬性以及所述屬性的屬性值的預先設定字符范圍,構造符合所述預先設定字符范圍的多個候選字符串stri以構成候選字符串集合;
依次計算所述初始識別結果字符串str與所述候選字符串集合中的每個候選字符串stri的最小編輯距離dmin;
利用所述最小編輯距離dmin,按照以下相似度公式計算所述初始識別結果字符串str與每個候選字符串stri的相似度Si,相似度Si=1-dmin/max(p,q),其中,p為所述初始識別結果字符串str的字符串長度,q為所述候選字符串集合中每個候選字符串stri的字符串長度,其中,不同字符串長度的候選字符串的q值不同;
將最大的相似度Smax所對應的候選字符串strj輸出為對所述初始識別結果字符串str的糾正結果。
2.根據權利要求1所述的方法,其特征在于,所述依次計算所述初始識別結果字符串str與所述候選字符串集合中的每個候選字符串stri的最小編輯距離dmin的步驟,包括:
獲取所述初始識別結果字符串str的字符串長度p;
獲取當前計算的候選字符串stri的字符串長度q;
若p=0且q≠0,則所述初始識別結果字符串str與當前計算的候選字符串stri的最小編輯距離dmin=q;
若q=0且p≠0,則所述初始識別結果字符串str與當前計算的候選字符串stri的最小編輯距離dmin=p;
若p≠0且q≠0,則構造矩陣D[p+1][q+1],其中,所述矩陣D[p+1][q+1]的第0行從左至右的元素的賦值以及第0列從上至下的元素的賦值均從0開始依次遞增,每次加1,使得元素d[0][q]=q,元素d[p][0]=p;
掃描所述初始識別結果字符串str中的每個字符str[j]和當前計算的候選字符串stri中的每個字符stri[i]分別進行比較,若stri[i]=str[j],則參數temp=0,否則temp=1,同時,針對矩陣D[p+1][q+1]中的元素d[i][j]進行如下賦值:
d[i][j]=﹛(d[i-1][j])+1,(d[i][j-1])+1,(d[i-1][j-1]+temp)﹜min;
將矩陣D[p+1][q+1]中的元素d[p+1][q+1]的賦值確定為所述初始識別結果的字符串str與當前計算的候選字符串stri的最小編輯距離dmin。
3.一種OCR識別結果的糾正裝置,其特征在于,包括:
OCR識別模塊,用于采用OCR技術對紙質文檔中目標區域內的待識別字符進行識別,獲取初始識別結果字符串str;
候選字符串構造模塊,用于根據所述待識別字符在所述紙質文檔中的屬性以及所述屬性的屬性值的預先設定字符范圍,構造符合所述預先設定字符范圍的多個候選字符串stri以構成候選字符串集合;
距離計算模塊,用于依次計算所述初始識別結果字符串str與所述候選字符串集合中的每個候選字符串stri的最小編輯距離dmin;
相似度計算模塊,用于利用所述最小編輯距離dmin,按照以下相似度公式計算所述初始識別結果字符串str與每個候選字符串stri的相似度Si,相似度Si=1-dmin/max(p,q),其中,p為所述初始識別結果字符串str的字符串長度,q為所述候選字符串集合中每個候選字符串stri的字符串長度,其中,不同字符串長度的候選字符串的q值不同;
結果糾正輸出模塊,用于將最大的相似度Smax所對應的候選字符串strj輸出為對所述初始識別結果字符串str的糾正結果。
4.根據權利要求3所述的裝置,其特征在于,所述距離計算模塊包括:
第一獲取子模塊,用于獲取所述初始識別結果字符串str的字符串長度p;
第二獲取子模塊,用于獲取當前計算的候選字符串stri的字符串長度q;
第一計算子模塊,用于若p=0且q≠0,則所述初始識別結果字符串str與當前計算的候選字符串stri的最小編輯距離dmin=q;
第二計算子模塊,用于若q=0且p≠0,則所述初始識別結果字符串str與當前計算的候選字符串stri的最小編輯距離dmin=p;
矩陣構造子模塊,用于若p≠0且q≠0,則構造矩陣D[p+1][q+1],其中,所述矩陣D[p+1][q+1]的第0行從左至右的元素的賦值以及第0列從上至下的元素的賦值均從0開始依次遞增,每次加1,使得元素d[0][q]=q,元素d[p][0]=p;
比較賦值子模塊,用于掃描所述初始識別結果字符串str中的每個字符str[j]和當前計算的候選字符串stri中的每個字符stri[i]分別進行比較,若stri[i]=str[j],則參數temp=0,否則temp=1,同時,針對矩陣D[p+1][q+1]中的元素d[i][j]進行如下賦值:
d[i][j]=﹛(d[i-1][j])+1,(d[i][j-1])+1,(d[i-1][j-1]+temp)﹜min;
確定子模塊,用于將矩陣D[p+1][q+1]中的元素d[p+1][q+1]的賦值確定為所述初始識別結果的字符串str與當前計算的候選字符串stri的最小編輯距離dmin。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京捷通華聲科技股份有限公司,未經北京捷通華聲科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710245168.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種盾構機隧道異型管片吊運裝置
- 下一篇:一種鋁蜂窩板的制備方法





