[發(fā)明專利]文字識別、編改的方法有效
| 申請?zhí)枺?/td> | 201010253563.3 | 申請日: | 2010-08-16 |
| 公開(公告)號: | CN101887519A | 公開(公告)日: | 2010-11-17 |
| 發(fā)明(設(shè)計)人: | 瞿洋;袁仁慧;梁洵;張振海 | 申請(專利權(quán))人: | 同方知網(wǎng)(北京)技術(shù)有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06F17/21 |
| 代理公司: | 北京捷誠信通專利事務(wù)所(普通合伙) 11221 | 代理人: | 魏殿紳 |
| 地址: | 100084 北京市海淀區(qū)清華園清華*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文字 識別 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及文檔電子化過程中文字識別、編改的方法,尤其涉及中文印刷體識別、編改的方法。
背景技術(shù)
在紙制文件電子化的過程中,OCR識別后的文字編改工作耗費了極大的人力,它是一項人力密集性工作,勞動強度也很高。目前的應(yīng)用現(xiàn)狀是:用普通OCR軟件進行圖像識別,再進行一次編改校正,在保證每人8萬字/8小時正常編改的速度下,編改的錯誤率通常也會超過1/1000。
發(fā)明內(nèi)容
為解決現(xiàn)有的人工編改效率低,錯誤率高的現(xiàn)狀,本發(fā)明提供了一種文字識別、編改的方法。該方法可以極大地提高人工編改的效率,降低成本,其技術(shù)方案如下:
文字識別、編改的方法,包括:
選用不同的識別軟件并采用外掛的方式對文檔中的文字進行識別;
比對所識別文字的結(jié)果;
將識別不同的文字進行編改校對并進行質(zhì)檢;
將質(zhì)檢合格后的文字合成文檔并輸出。
本發(fā)明提供的技術(shù)方案的有益效果是:
通過本發(fā)明對正常的漢字為主體的文檔其編改的效率可以提高7倍以上,達到70萬字/8小時;同時編改錯誤率降低60%,達到4/10000以下。
附圖說明
圖1是本發(fā)明實施方法流程圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進一步地詳細描述:
本實施例提供了一種文字識別、編改的方法,具體包括以下流程(參見圖1):
文檔掃描與處理
為提高OCR識別軟件識別正確率,對文檔統(tǒng)一采用300DPI精度進行掃描,隨后對圖像進行必要的傾斜矯正、圖像去污去噪等處理。
按段落切圖
為保證雙路OCR識別軟件具有相同的版面分析結(jié)果,必須對文檔圖像進行段落切圖,其切圖順序遵照文章段落的自然順序,并且自動命名,以便結(jié)果輸出時使用。
版面分析與檢查
對切好的圖像用“漢王”O(jiān)CR識別軟件進行自動版面分析;人工檢查自動版面分析結(jié)果,糾正錯誤結(jié)果。檢查時,對圖像缺陷進行必要的修補,保證段落及行分析正確。如果需要,進行人工版面分析。我們以“漢王”O(jiān)CR識別軟件版面分析的結(jié)果作為最后重組段落的依據(jù)。
“漢王”和“文通”雙路OCR識別軟件外掛識別
把段落切圖的圖像進行“行切圖”一一切成若干行圖像,分別傳入“漢王”和“文通”雙路識別軟件,進行外掛識別。
外掛識別就是不改變原來的OCR識別軟件,編寫新程序模擬人工操作OCR識別軟件的過程,以便完成圖像識別工作。外掛程序和OCR程序是各自獨立運行的軟件。外掛程序識別圖像不需要OCR程序的識別接口,外掛程序利用OCR程序進行圖像識別。
采用外掛識別可以有效地節(jié)約采購雙路OCR識別SDK軟件的費用,降低系統(tǒng)構(gòu)建成本,也可以避免SDK軟件相對于其正品軟件技術(shù)落后的問題。
之所以經(jīng)過“行切圖”,再逐行送入雙路識別軟件進行識別的原因是:對即使很清晰的段落圖像,由于兩個識別軟件的版面分析算法不同,版面分析的結(jié)果也可能不同。經(jīng)過“行切圖”,我們就能保證雙路識別軟件行分析的正確性。
雙路識別結(jié)果比對
“漢王”和“文通”是國內(nèi)對中文和英文都具有較高識別率的OCR系統(tǒng),它們對清晰印刷體漢字圖象識別率都在98%以上。更為可貴的是通過我們的對比測試,“漢王”和“文通”識別軟件具有很強的互補性,利用他們的識別結(jié)果并進行單行逐字比對,過濾出具有相同的識別結(jié)果的字,不交給人工進行編改;把識別不同字交給人工進行編改校對。
實際應(yīng)用統(tǒng)計說明,對正常印刷體漢字為主體的文檔,我們不編改文字拋出率達到95%,這部分文字的錯誤率達到<3/10000。
在雙路比對前,針對其應(yīng)用需求,還對一些字符做了必要的全角字符轉(zhuǎn)半角字符的歸一化處理。這些字符包括A-Z、a-z、0-9、“!”、“[”、“]”等,共計80個字符。
雙路行對比算法采用基于狀態(tài)空間搜索A*算法,采用橫向搜索尋找最優(yōu)匹配。設(shè)兩行待對比的文字串為S1和S2,它們的長度分別為m和n,且m≤n;S1包含字符(Cs1,Cs2,...,Csm),S2包含字符(Cl1,Cl2,...,Cln)。比對算法如下:
(1)對短文字串S1的每個文字Csi,且0≤i≤m,在長文字串S2中尋找匹配的字符,并把在S2中與Csi相匹配字符的索引放入可能匹配的集合SMi;隨后在SMi中增加一個-1的索引,代表不匹配。過程如下:
F0R?i=1?TO?m
begin
??????F0R?j=1?TO?n
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同方知網(wǎng)(北京)技術(shù)有限公司,未經(jīng)同方知網(wǎng)(北京)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010253563.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





