[發(fā)明專利]基于關(guān)鍵字光學(xué)字符識別的影像清晰度判斷的方法有效
| 申請?zhí)枺?/td> | 201110255911.5 | 申請日: | 2011-08-31 |
| 公開(公告)號: | CN102968638A | 公開(公告)日: | 2013-03-13 |
| 發(fā)明(設(shè)計)人: | 黃火德 | 申請(專利權(quán))人: | 上海夏爾軟件有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 上海浦一知識產(chǎn)權(quán)代理有限公司 31211 | 代理人: | 孫大為 |
| 地址: | 201203 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 關(guān)鍵字 光學(xué) 字符 識別 影像 清晰度 判斷 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明適用于紙質(zhì)資料電子化領(lǐng)域,特別是海量紙質(zhì)單據(jù)或者檔案資料,需要對電子化的圖像進行清晰度檢查的時候。
背景技術(shù)
近年來,隨著計算機等信息技術(shù)的發(fā)展,計算機在的日常工作中應(yīng)用的越來越廣泛。隨著計算機硬件設(shè)備的普及,內(nèi)部網(wǎng)絡(luò)和外部骨干網(wǎng)絡(luò)的不斷的建立和完善,“無紙化辦公”類軟件的發(fā)展,現(xiàn)在無紙化辦公的軟硬件環(huán)境已經(jīng)基本準(zhǔn)備充分,越來越多的單位和企業(yè)采用了內(nèi)部辦公系統(tǒng)(OA系統(tǒng))來提高效率,節(jié)約成本。新的辦公系統(tǒng)啟用之后,新產(chǎn)生的文檔將采用電子化的方式,通過網(wǎng)絡(luò)進行流轉(zhuǎn)和使用,而龐大的歷史資料和現(xiàn)有電子化系統(tǒng)的對接的問題越來越突出。隨之,掃描加工外包服務(wù)應(yīng)運而生,這個服務(wù),可以使客戶的歷史紙質(zhì)資料快速、準(zhǔn)確、高性價比的成為電子檔案。
海量紙質(zhì)文檔的電子化過程,需要投入大量的掃描儀、計算機、網(wǎng)絡(luò)和生產(chǎn)人員、管理人員。在電子化的過程中,電子文件的清晰度至關(guān)重要。為了保證最終的加工質(zhì)量,需要投入大量的質(zhì)檢人員進行清晰度的檢查工作。由于質(zhì)檢人員的檢查存在較大的主觀因素,其檢查結(jié)果會因人為因素產(chǎn)生偏差,將對產(chǎn)品的最終質(zhì)量帶來直接的影響;同時質(zhì)檢人員進行人工檢查,會耗費大量的人力,直接拉高了電子化過程的成本。如何保證對電子文件清晰度的檢查盡量不受人為因素的影響,最大的接近客觀實際情況,并且最大程度節(jié)省人力成本,減少檢查過程中人力的參與,成為海量紙質(zhì)文檔的電子化過程中關(guān)于影像清晰度檢查的一大挑戰(zhàn)。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種基于基于關(guān)鍵字光學(xué)字符識別的影像清晰度判斷的方法,它可以保證對電子文件清晰度的檢查盡量不受人為因素的影響,最大的接近客觀實際情況,并且最大程度節(jié)省人力成本,減少檢查過程中人力的參與。
為了解決以上技術(shù)問題,本發(fā)明提供了一種基于關(guān)鍵字光學(xué)字符識別的影像清晰度判斷的方法,包括:提供配置工具,對特定類型的電子文件配置識別的區(qū)域坐標(biāo)、識別的文字結(jié)果、電子文件的基準(zhǔn)點,形成識別模板庫;識別客戶端通過讀取識別模板庫信息,自動定位需要識別電子文件的關(guān)鍵字區(qū)域;識別客戶端對指定的關(guān)鍵字區(qū)域進行光學(xué)字符識別OCR文字識別,得出識別結(jié)果與識別模板庫配置進行對比,得出識別率;由識別率通過清晰度配置,得出電子文件的清晰度結(jié)果。
本發(fā)明的有益效果在于:通過計算機光學(xué)字符識別(OCR)技術(shù)的自動化優(yōu)勢,代替人力,大大節(jié)省了人力成本,提高了服務(wù)效率;大大減少因為人為主觀因素造成的檢查結(jié)果的偏差;檢查的結(jié)果量化度高,可為整體質(zhì)量檢查提供較為信服的依據(jù)。
所述識別模板的配置中,包括:確定需要識別清晰度的電子文件的類型和標(biāo)準(zhǔn)的電子文件模板;對電子文件模板上的關(guān)鍵字區(qū)域進行框選,記錄框選的位置坐標(biāo),并記錄到對應(yīng)的配置信息庫中;將框選的關(guān)鍵字區(qū)域的文字內(nèi)容,一并記錄到配置信息庫中;配置模板的基準(zhǔn)點,使實際檢查的電子文件與模板中框選的位置進行對應(yīng);定義清晰度的等級。
在識別的客戶端中,實現(xiàn)過程如下:通過讀取當(dāng)前的電子文件描述信息,確認(rèn)電子文件的類型;到識別模板庫中讀取對應(yīng)電子文件類型的模板配置信息;通過基準(zhǔn)點和識別模板庫中框選區(qū)域坐標(biāo),確定當(dāng)前電子文件需要光學(xué)字符識別(OCR)識別的區(qū)域;對選定的區(qū)域進行光學(xué)字符識別(OCR)識別,對識別的文字和識別模板庫中配置的文字進行比較,得出其識別正確率;通過識別正確率得出電子文件的清晰度。
識別模板的配置包括以下步驟:步驟一、新建一個識別模板;步驟二、載入模板文件;步驟三、配置模板文件的基準(zhǔn)點;步驟四、新建一個關(guān)鍵字識別區(qū)域;步驟五、框選識別區(qū)域,記錄其坐標(biāo)位置;步驟六、配置待識別的文字信息;步驟七、配置信息入配置信息庫;步驟八、判斷是否繼續(xù)新建識別區(qū)域;如是,重復(fù)步驟四;如否,繼續(xù);步驟九、判斷是否繼續(xù)新建識別模板;如是,重復(fù)步驟一;如否,繼續(xù);結(jié)束。
附圖說明
下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步詳細(xì)說明。
圖1是本發(fā)明所述方法識別模板的配置示意圖。
具體實施方式
本發(fā)明提供了一種高效、可靠且大大節(jié)省人力成本的電子化文件清晰度檢查方法。將本軟件部署在掃描加工服務(wù)的生產(chǎn)線上,可以無需人力干預(yù),即可較為高效、迅速而客觀的體現(xiàn)電子化文件的清晰度方面的質(zhì)量情況。
本發(fā)明的基于光學(xué)字符識別(OCR)關(guān)鍵字文字識別的影像清晰度判斷的方法主要由2個部分組成,分別為識別模板的配置和識別的客戶端。
在識別模板的配置中,可以設(shè)置如下內(nèi)容:
1、確定需要識別清晰度的電子文件的類型和標(biāo)準(zhǔn)的電子文件模板;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海夏爾軟件有限公司,未經(jīng)上海夏爾軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110255911.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





