[發(fā)明專利]文字識別、編改的系統(tǒng)有效
| 申請?zhí)枺?/td> | 201010253559.7 | 申請日: | 2010-08-16 |
| 公開(公告)號: | CN101908147A | 公開(公告)日: | 2010-12-08 |
| 發(fā)明(設(shè)計)人: | 瞿洋;袁仁慧;梁洵;張振海 | 申請(專利權(quán))人: | 同方知網(wǎng)(北京)技術(shù)有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06T11/60 |
| 代理公司: | 北京捷誠信通專利事務(wù)所(普通合伙) 11221 | 代理人: | 魏殿紳 |
| 地址: | 100084 北京市海淀區(qū)清華園清華*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文字 識別 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及涉及文檔電子化過程中文字識別及編改的系統(tǒng),尤其涉及中文印刷體識別與編改的系統(tǒng)。
背景技術(shù)
在紙制文件電子化的過程中,OCR識別后的文字編改工作耗費了極大的人力,它是一項人力密集性工作,勞動強度也很高。目前的應(yīng)用現(xiàn)狀是:用普通OCR軟件進行圖像識別,再進行一次編改校正,在保證每人8萬字/8小時正常編改的速度下,編改的錯誤率通常也會超過1/1000。
發(fā)明內(nèi)容
為解決現(xiàn)有的人工編改效率低,錯誤率高的現(xiàn)狀,本發(fā)明提供了一種文字識別、編改的系統(tǒng)。該系統(tǒng)可以極大地提高人工編改的效率,降低成本,所述技術(shù)方案如下:
文字識別、編改的系統(tǒng),包括:
雙路識別單元,調(diào)用識別軟件并采用外掛的方式對文檔中的文字進行識別;
流控處理單元,對待識別的文檔圖像進行段落切圖,對識別后的不同的文字進行編改校對并進行質(zhì)檢;
后續(xù)加工處理單元,對其發(fā)現(xiàn)的錯誤進行改正并返還到發(fā)現(xiàn)錯誤的執(zhí)行者。
本發(fā)明提供的技術(shù)方案的有益效果是:
通過本發(fā)明對正常的漢字為主體的文檔其編改的效率可以提高7倍以上,達(dá)到70萬字/8小時;同時編改錯誤率降低60%,達(dá)到4/10000以下。
附圖說明
圖1是本發(fā)明基于網(wǎng)絡(luò)和數(shù)據(jù)庫的流程化加工系統(tǒng)圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進一步地詳細(xì)描述:
本實施例提供了一種文字識別、編改的系統(tǒng),該系統(tǒng)包括:該系統(tǒng)包括雙路識別單元、流控處理單元及后續(xù)加工處理單元,其中雙路識別單元,調(diào)用識別軟件并采用外掛的方式對文檔中的文字進行識別;流控處理單元,對待識別的文檔圖像進行段落切圖,對識別后的不同的文字進行編改校對并進行質(zhì)檢;后續(xù)加工處理單元,對其發(fā)現(xiàn)的錯誤進行改正并返還到發(fā)現(xiàn)錯誤的執(zhí)行者。上述外掛識別就是不改變原來的OCR識別軟件,編寫新程序模擬人工操作OCR識別軟件的過程,以便完成圖像識別工作。外掛程序和OCR程序是各自獨立運行的軟件。外掛程序識別圖像不需要OCR程序的識別接口,外掛程序利用OCR程序進行圖像識別。
上述雙路識別單元包括:識別機器人與機器人智能監(jiān)控程序,其中,識別機器人采用漢王OCR識別軟件和文通OCR識別軟件通過外掛的方式對待識別的文檔圖像進行識別,對其識別的結(jié)果進行比較,并將二者不一致的字拋出編改。
機器人智能監(jiān)控程序,監(jiān)控識別機器人的運行狀態(tài),如果有異常則重啟機器人,嚴(yán)重問題則重啟操作系統(tǒng)并啟動機器人,以保證識別機器人持續(xù)、穩(wěn)定運行。
本系統(tǒng)采用的漢王OCR識別軟件和文通OCR識別軟件具有很強的互補性,我們利用其識別結(jié)果并進行單行逐字比對,過濾出具有相同的識別結(jié)果的字,不交給人工進行編改,將識別不同的字交給人工進行編改校對。
上述流控處理單元包括:切圖模塊、縱編模塊、橫編模塊及質(zhì)檢模塊,其中,切圖模塊,對待識別的文檔圖像進行段落切圖,以保證雙路OCR識別軟件具有相同的版面分析結(jié)果。其切圖順序遵照文章段落的自然順序,并提供傾斜校正、去噪、二值化等圖像處理功能。縱編模塊,以每人每天的編改效率(例如70萬字)為參考標(biāo)準(zhǔn)組織編改任務(wù)批次,將同一批次的需要縱編的文字以字為單位重新組合進行編改。對雙路識別有矛盾且重復(fù)出現(xiàn)兩次以上的字先交給人工進行縱向編改校對。所有需縱編的字都在段落中標(biāo)紅,編過的字標(biāo)藍(lán),且圖文對照。按70萬字一批形成任務(wù)批次,基本保證該批次在一天內(nèi)完成。正常情況下,該過程的編改量只占全部應(yīng)編改工作量的5%。縱編有效地提高了編改效率,減輕編改勞動強度。為了提高系統(tǒng)整體的正確率,我們還主動加入了一些易混字和易錯字,對他們?nèi)窟M行縱編。如“人”、“入”、“一”、“二”、“卜”、“白”、“.”、“兒”等二十個字。橫編模塊,在縱編的基礎(chǔ)上對需要編改的文字以文檔的自然順序進行圖文對照編改。所有需橫編的文字都在段落中標(biāo)紅,已縱編的字都在段落中標(biāo)綠,編過的字標(biāo)藍(lán),且圖文對照,在正常情況下,該過程的編改量小于全部應(yīng)編改工作量的1%,在編改的過程中,要求編改者同時檢查段落的正確。質(zhì)檢模塊,按人按批按設(shè)定的比例進行抽檢,對抽取的編改結(jié)果進行質(zhì)量檢查,并下質(zhì)檢結(jié)論。
上述后續(xù)加工處理單元包括改錯返工模塊及管理與監(jiān)控模塊,所述改錯返工模塊,對其雙路識別單元和流控處理模塊單元中的每個工作崗位發(fā)現(xiàn)的錯誤以及質(zhì)檢結(jié)果為返工的任務(wù),流程將任務(wù)分派給出現(xiàn)錯誤的員工,錯誤被改正后再將任務(wù)返回給發(fā)現(xiàn)錯誤的員。管理與監(jiān)控模塊,包括工資的結(jié)算、任務(wù)統(tǒng)計分析、任務(wù)優(yōu)先級調(diào)整、暫停加工及恢復(fù)加工的功能。
以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同方知網(wǎng)(北京)技術(shù)有限公司,未經(jīng)同方知網(wǎng)(北京)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010253559.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





