[發明專利]利用知識庫海量關聯信息的中文名片OCR數據修正系統在審
| 申請號: | 201410142535.2 | 申請日: | 2014-04-10 |
| 公開(公告)號: | CN103927352A | 公開(公告)日: | 2014-07-16 |
| 發明(設計)人: | 王曉平;肖仰華;汪衛 | 申請(專利權)人: | 江蘇唯實科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/20 |
| 代理公司: | 無錫市大為專利商標事務所(普通合伙) 32104 | 代理人: | 曹祖良 |
| 地址: | 214028 江蘇省無錫市新*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 知識庫 海量 關聯 信息 中文 名片 ocr 數據 修正 系統 | ||
技術領域
本發明屬于光學字符識別技術領域及數據清洗領域,具體涉及一種基于知識庫海量關聯信息的中文名片OCR數據修正系統。
背景技術
隨著光學掃描、計算機圖像處理、模式識別等技術的發展,OCR技術已經漸趨成熟,其在諸多方面的成功應用也為人們的工作、生活帶來了便利,而名片OCR識別正是當中極具代表性的一項應用,用戶只需將拍攝的名片照片傳入計算機或者是智能手機,并用相應的OCR軟件進行識別,然后將識別出的文本信息進行儲存,這樣就免去了人們用傳統方式處理名片帶來的麻煩,如隨身攜帶名片的不便或是往筆記本上抄錄名片信息的繁瑣。
然而,目前的OCR技術本身受到許多不利因素的影響,如低照度、低像素、圖像噪聲、角度傾斜、聚集模糊等,從而導致最終的識別率偏低。而對OCR結果的修正基本上有兩種途徑,一種是從圖像本身出發,設法通過圖像去噪、圖像增強等技術來減弱或消除不利環境的影響,而這種僅依賴圖像信息的方法糾錯效果是有限的;還有一種則是對其中的某種類型的信息如地址單獨進行修正,這種方法的缺點是沒有對數據的關聯性加以利用,因而在修正效果上仍存在進一步提升的空間。
發明內容
本發明的目的在于提供一種能夠利用知識庫的數據海量性及知識關聯性的特點,對中文名片的OCR識別結果進行修正,從而進一步提升識別率的數據修正系統。本發明采用的技術方案是:
一種利用知識庫海量關聯信息的中文名片OCR數據修正系統,包括圖像采集模塊、圖像標準化處理模塊、字塊提取模塊、OCR模塊、知識庫模塊、數據修正模塊、增量維護模塊、結果展示模塊。
本發明首先通過圖像采集裝置獲得名片的數字圖像,然后對圖像進行包括旋轉、剪切、縮放在內的一系列處理獲得無傾斜、歸一化尺寸的標準化圖像,進而結合數字形態學、連通區分析等技術從中提取出獨立的字符串塊子圖像送入OCR模塊進行識別;接著,對OCR模塊的識別結果,首先進行信息結構化處理來為待修正數據打上標簽,然后利用知識庫模塊的海量關聯信息,結合中文分詞、基于知識庫的重要度加權、基于文本和圖像的相似度比較、信息融合等一系列技術來對地址、單位名稱關聯信息進行修正以提升正確率;最后,將修正后的OCR結果進行輸出展示。同時,系統的增量維護模塊以半自動方式來對知識庫進行信息維護,從而適應信息量不斷增長的需求。
以下是各模塊的詳細說明。所述圖像采集模塊用于獲得名片照片的數字圖像;所述圖像標準化處理模塊用于對名片照片進行包括角度、尺寸在內的歸一化處理,具體包括:圖像灰度化、名片傾斜校正、名片區域剪切、名片尺寸標準化;所述字塊提取模塊用于從名片圖像中提取出各子字塊;所述OCR模塊用于將名片圖像轉化為文本信息;所述知識庫模塊作為名片數據修正的來源和依據,包含名片修正所需的信息;所述數據修正模塊用于根據知識庫模塊,對OCR識別結果中的錯誤進行修正;所述增量維護模塊用于對OCR識別及修正結果進行評判,并擴充知識庫規模;所述結果展示模塊用于將修正后的結果進行輸出。
進一步地,所述圖像標準化處理模塊包含三個子模塊:名片傾斜校正子模塊、名片區域剪切子模塊、名片縮放子模塊;所述名片傾斜校正子模塊首先對名片照片進行圖像灰度化處理;然后對名片進行旋轉校正;所述名片區域剪切子模塊對傾斜校正后的灰度圖像進行二值化處理;基于水平投影、垂直投影確定名片的區域,并按確定的區域將名片部分從圖像背景中剪切出來;所述名片縮放子模塊對剪切出的名片區域,按初始設定尺寸進行比例縮放。
進一步地,所述字塊提取模塊包括形態學處理子模塊和字塊提取子模塊;
形態學處理子模塊對名片圖像的二值化結果圖,進行數學形態學操作,以保留真正的字符區域;字塊提取子模塊對保留下真正字符后的二值化結果圖,進行連通區分析,并對每個連通區進行水平膨脹處理,然后再次進行連通區域分析,進而求出新連通區的外接矩形,最后根據外接矩形將字塊區域作為子圖像提取出來。
進一步地,所述數據修正模塊包括以下子模塊:信息結構化子模塊和信息修正子模塊;
信息結構化子模塊用于:
(a-1).預先枚舉并建立信息的屬性名稱庫,內容至少包括“單位”、“地址”;
(a-2).對OCR識別結果,首先從每條信息中尋找屬性名稱;
(a-3).如果有匹配,則進行屬性名修正,與預先枚舉定義的屬性名稱進行相似度比較,并從枚舉庫中取出相似度最高的進行替換;
(a-4).如果無匹配,則自動添加屬性標注。
進一步地,所述信息修正子模塊包括預處理工作子模塊、地址名-單位名稱的關聯數據修正子模塊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇唯實科技有限公司,未經江蘇唯實科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410142535.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:天然氣井泡排劑智能投送裝置
- 下一篇:多檔位電控操作手柄





