[發(fā)明專利]一種金融OCR系統(tǒng)手寫體數(shù)字串的軟切分方法無效
| 申請?zhí)枺?/td> | 201110436948.8 | 申請日: | 2011-12-23 |
| 公開(公告)號: | CN102567725A | 公開(公告)日: | 2012-07-11 |
| 發(fā)明(設(shè)計)人: | 丁杰;彭林;朱力鵬;胡斌 | 申請(專利權(quán))人: | 國網(wǎng)電力科學(xué)研究院 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34 |
| 代理公司: | 南京知識律師事務(wù)所 32207 | 代理人: | 汪旭東 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 金融 ocr 系統(tǒng) 手寫體 字串 切分 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于OCR技術(shù)領(lǐng)域,涉及一種手寫體字符串的切分方法,該方法可以通過對數(shù)字圖像中筆劃進(jìn)行模糊特征抽取,并映射到特征片段集,在此基礎(chǔ)上形成候選的切分假設(shè)和計算出最優(yōu)的切分結(jié)果。
背景技術(shù)
目前OCR已成為多種系統(tǒng)的核心技術(shù),得到廣泛的運用并涉及從金融、政府、圖書館到電力、企事業(yè)單位等眾多行業(yè)領(lǐng)域,如文檔影像識別系統(tǒng)(包括文檔錄入、搜索、管理等)、辦公室自動化的文本輸入、郵政編碼自動分揀系統(tǒng)、文檔自動分類系統(tǒng)、車牌自動識別系統(tǒng)、票據(jù)自動處理系統(tǒng)等。一個完整的OCR系統(tǒng)一般需要以下幾個步驟:傾斜圖像的調(diào)整、版面分析和版面理解、字符串切分、字符識別以及必要的后處理。在上述OCR技術(shù)體系中,字符串切分技術(shù)一直是OCR應(yīng)用軟件研究的熱點和難點。字符切分技術(shù)主要解決字符間位置關(guān)系的四種形式,即孤立、粘連、交錯以及交疊:孤立是指字符之間各自分開,獨立成為整體;粘連是指兩字符筆劃有一處或多處接觸;交錯是指兩字符在水平方向上的投影有重疊,但字符間沒有實際的粘連;交疊是指兩字符共享某一塊像素區(qū)域,即所謂的共用筆劃。由于筆劃相互粘連是造成手寫數(shù)字串切分困難的重要原因,而對粘連字符識別不準(zhǔn)確是產(chǎn)生識別錯誤的主要原因,現(xiàn)階段研究對此展開。
本發(fā)明的研究基礎(chǔ)主要包括以下三個方面:
(1)圖像預(yù)處理。字符圖像的預(yù)處理是字符分割和識別的前提和基礎(chǔ),主要針對采集脫機手寫字符過程中存在的干擾信號,如紙張本身帶有的污點或掃描設(shè)備性能問題等,特別是由于書寫時用力不均、字體潦草等造成的字符筆劃斷裂和粗細(xì)不均,進(jìn)行圖像的規(guī)整和優(yōu)化,從而避免影響切分和識別的效果。圖像預(yù)處理技術(shù)通常包括圖像平滑濾波技術(shù)、二值化技術(shù)等。
(2)主曲線分析。主曲線是通過數(shù)據(jù)分布“中間”并滿足“自相合”的光滑曲線,曲線上的每一點是投影至該點的數(shù)據(jù)點的條件均值。主曲線的理論基礎(chǔ)是尋求嵌入高維空間的非歐氏低維流形,繼承了主成分分析的眾多思想,是線性主成分的非線性推廣,能夠真實地反映數(shù)據(jù)的形態(tài),即曲線是數(shù)據(jù)集合的“骨架”。主曲線具有對數(shù)據(jù)信息保持性好的優(yōu)點,可以在圖像細(xì)化過程中最大限度地保護特征細(xì)節(jié)不丟失和細(xì)化圖譜的光滑性。
(3)分類器組合和置信度修正。多分類器組合是設(shè)計一個高性能,且穩(wěn)定的手寫體數(shù)字識別器的有效途徑,一定程度上克服了導(dǎo)致分類器性能不佳的三類原因:單特征對字符本質(zhì)反映不全面;噪聲等因素的影響,導(dǎo)致特征對字符描述的不穩(wěn)定;不同類型分類器對特征變化的敏感性和穩(wěn)定性不同導(dǎo)致單分類器性能下降。一般認(rèn)為,不同性質(zhì)的特征往往描述字符模式的不同方面,在一種特征空間很難區(qū)分的兩種模式可能在另一種特征空間上很容易分開,而對應(yīng)于同一特征的不同分類器又從不同的角度(基于概率或最近距離等)將該特征映射到結(jié)果集合上,因此往往使用后驗概率對分類器組合的置信度進(jìn)行修正。
發(fā)明內(nèi)容
本發(fā)明針對無限制手寫體數(shù)字串的切分問題,提出了一種基于識別的切分方法。將數(shù)字串看成數(shù)字筆劃的集合,依據(jù)主曲線分析抽取數(shù)字筆劃。為克服抽取筆劃的不規(guī)則和集合存在冗余的缺陷,提出了適于數(shù)字筆劃處理的模糊規(guī)則對抽取筆劃進(jìn)行分裂、合并和篩選,生成適合筆劃組合的筆劃集合。候選切分假設(shè)依據(jù)筆劃組合過程生成,文中將筆劃集合中各筆劃在水平方向上進(jìn)行排序形成筆劃序列,從而通過劃分筆劃序列為子序列集的方式生成候選切分假設(shè),每個子序列對應(yīng)于一個字符模式。在此基礎(chǔ)上使用組合分類器對各子序列進(jìn)行識別輸出,生成最優(yōu)的切分假設(shè)作為切分結(jié)果輸出。總體結(jié)構(gòu)見圖1。
附圖說明
圖1總體流程框圖。
圖2是圖像預(yù)處理的平滑窗口模板。
圖3是筆劃模糊特征對應(yīng)的模糊函數(shù)取值。
圖4是筆劃分裂點遍歷的示意圖。
圖5是筆劃組合及識別的示意圖。
圖6是筆劃組合步驟的一個典型示例圖。
具體實施方式
(1)圖像預(yù)處理
由于在圖像采集過程中噪聲干擾不可避免,容易造成一些孤立小塊或字符邊緣出現(xiàn)不規(guī)則的鋸齒和噪聲,因此經(jīng)Otsu二值化后的字符圖像還不能直接使用。針對字符筆劃上的毛刺、凹陷以及孤立噪聲點,首先以字符圖像的平均筆劃寬度為依據(jù)對圖像進(jìn)行濾波處理,但要避免平滑掉過細(xì)的筆劃部分,然后逐行掃描二值字符圖像,并依據(jù)給定大小窗口內(nèi)的圖像結(jié)構(gòu)細(xì)節(jié)修改中心像素值,以便剔除筆劃上的毛刺、填平筆劃上的凹陷或內(nèi)孔,并抑制或消除噪聲對字符切分的影響。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)電力科學(xué)研究院,未經(jīng)國網(wǎng)電力科學(xué)研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110436948.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種金融服務(wù)系統(tǒng)、金融服務(wù)平臺及其方法
- 一種移動終端搭載金融支付終端的方法及金融支付系統(tǒng)
- 一種基于微信小程序及金融開放平臺的金融能力輸出模式
- 金融產(chǎn)品推薦方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 基于三維坐標(biāo)定位的金融憑證智能存放系統(tǒng)及其裝置
- 基于云計算和區(qū)塊鏈的金融信息管理系統(tǒng)
- 基于數(shù)據(jù)倉庫的金融數(shù)據(jù)自動化測試與監(jiān)控系統(tǒng)
- 基于金融應(yīng)用的風(fēng)險監(jiān)測方法及系統(tǒng)
- 金融數(shù)據(jù)處理方法、裝置、設(shè)備及存儲介質(zhì)
- 金融憑證智能存放裝置
- OCR文檔識別方法及其裝置
- 智能調(diào)度多OCR識別引擎的方法及設(shè)備
- OCR掛接方法、裝置與設(shè)備
- 一種用于教學(xué)系統(tǒng)的OCR識別方法、裝置和終端
- OCR識別模型的確定方法及裝置
- 基于聯(lián)邦OCR模型的字符檢測方法、裝置、設(shè)備和介質(zhì)
- OCR系統(tǒng)的評估方法、裝置、設(shè)備及可讀存儲介質(zhì)
- OCR模型訓(xùn)練方法、系統(tǒng)及裝置
- 識別轉(zhuǎn)換圖像文件的方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)
- OCR訓(xùn)練數(shù)據(jù)生成方法、裝置、計算機設(shè)備及存儲介質(zhì)





