[發(fā)明專利]利用知識(shí)庫(kù)海量關(guān)聯(lián)信息的中文名片OCR數(shù)據(jù)修正系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201410142535.2 | 申請(qǐng)日: | 2014-04-10 |
| 公開(公告)號(hào): | CN103927352A | 公開(公告)日: | 2014-07-16 |
| 發(fā)明(設(shè)計(jì))人: | 王曉平;肖仰華;汪衛(wèi) | 申請(qǐng)(專利權(quán))人: | 江蘇唯實(shí)科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06K9/20 |
| 代理公司: | 無(wú)錫市大為專利商標(biāo)事務(wù)所(普通合伙) 32104 | 代理人: | 曹祖良 |
| 地址: | 214028 江蘇省無(wú)錫市新*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 利用 知識(shí)庫(kù) 海量 關(guān)聯(lián) 信息 中文 名片 ocr 數(shù)據(jù) 修正 系統(tǒng) | ||
1.一種利用知識(shí)庫(kù)海量關(guān)聯(lián)信息的中文名片OCR數(shù)據(jù)修正系統(tǒng),其特征在于,包括圖像采集模塊、圖像標(biāo)準(zhǔn)化處理模塊、字塊提取模塊、OCR模塊、知識(shí)庫(kù)模塊、數(shù)據(jù)修正模塊、增量維護(hù)模塊、結(jié)果展示模塊;?
所述圖像采集模塊用于獲得名片照片的數(shù)字圖像;?
所述圖像標(biāo)準(zhǔn)化處理模塊用于對(duì)名片照片進(jìn)行包括角度、尺寸在內(nèi)的歸一化處理,具體包括:圖像灰度化、名片傾斜校正、名片區(qū)域剪切、名片尺寸標(biāo)準(zhǔn)化;?
所述字塊提取模塊用于從名片圖像中提取出各子字塊;?
所述OCR模塊用于將名片圖像轉(zhuǎn)化為文本信息;?
所述知識(shí)庫(kù)模塊作為名片數(shù)據(jù)修正的來(lái)源和依據(jù),包含名片修正所需的信息;?
所述數(shù)據(jù)修正模塊用于根據(jù)知識(shí)庫(kù)模塊,對(duì)OCR識(shí)別結(jié)果中的錯(cuò)誤進(jìn)行修正;?
所述增量維護(hù)模塊用于對(duì)OCR識(shí)別及修正結(jié)果進(jìn)行評(píng)判,并擴(kuò)充知識(shí)庫(kù)規(guī)模;?
所述結(jié)果展示模塊用于將修正后的結(jié)果進(jìn)行輸出。?
2.如權(quán)利要求1所述的利用知識(shí)庫(kù)海量關(guān)聯(lián)信息的中文名片OCR數(shù)據(jù)修正系統(tǒng),其特征在于:?
所述圖像標(biāo)準(zhǔn)化處理模塊包含三個(gè)子模塊:名片傾斜校正子模塊、名片區(qū)域剪切子模塊、名片縮放子模塊;?
所述名片傾斜校正子模塊首先對(duì)名片照片進(jìn)行圖像灰度化處理;然后對(duì)名片進(jìn)行旋轉(zhuǎn)校正;?
所述名片區(qū)域剪切子模塊對(duì)傾斜校正后的灰度圖像進(jìn)行二值化處理;基于水平投影、垂直投影確定名片的區(qū)域,并按確定的區(qū)域?qū)⒚糠謴膱D像背景中剪切出來(lái);?
所述名片縮放子模塊對(duì)剪切出的名片區(qū)域,按初始設(shè)定尺寸進(jìn)行比例縮放。?
3.如權(quán)利要求2所述的利用知識(shí)庫(kù)海量關(guān)聯(lián)信息的中文名片OCR數(shù)據(jù)修正系統(tǒng),其特征在于:?
所述字塊提取模塊包括形態(tài)學(xué)處理子模塊和字塊提取子模塊;?
形態(tài)學(xué)處理子模塊對(duì)名片圖像的二值化結(jié)果圖,進(jìn)行數(shù)學(xué)形態(tài)學(xué)操作,以保留真正的字符區(qū)域;?
字塊提取子模塊對(duì)保留下真正字符后的二值化結(jié)果圖,進(jìn)行連通區(qū)分析,并對(duì)每個(gè)連通區(qū)進(jìn)行水平膨脹處理,然后再次進(jìn)行連通區(qū)域分析,進(jìn)而求出新連通區(qū)的外接矩形,最后根據(jù)外接矩形將字塊區(qū)域作為子圖像提取出來(lái)。?
4.如權(quán)利要求1、2或3所述的利用知識(shí)庫(kù)海量關(guān)聯(lián)信息的中文名片OCR數(shù)據(jù)修正系統(tǒng),其特征在于:?
所述數(shù)據(jù)修正模塊包括以下子模塊:信息結(jié)構(gòu)化子模塊和信息修正子模塊;?
信息結(jié)構(gòu)化子模塊用于:?
(a-1).預(yù)先枚舉并建立信息的屬性名稱庫(kù),內(nèi)容至少包括“單位”、“地址”;?
(a-2).對(duì)OCR識(shí)別結(jié)果,首先從每條信息中尋找屬性名稱;?
(a-3).如果有匹配,則進(jìn)行屬性名修正,與預(yù)先枚舉定義的屬性名稱進(jìn)行相似度比較,并從枚舉庫(kù)中取出相似度最高的進(jìn)行替換;?
(a-4).如果無(wú)匹配,則自動(dòng)添加屬性標(biāo)注。?
5.如權(quán)利要求4所述的利用知識(shí)庫(kù)海量關(guān)聯(lián)信息的中文名片OCR數(shù)據(jù)修正系統(tǒng),其特征在于:?
所述信息修正子模塊包括預(yù)處理工作子模塊、地址名-單位名稱的關(guān)聯(lián)數(shù)據(jù)修正子模塊;?
預(yù)處理工作子模塊用于:?
(b-1).對(duì)OCR結(jié)果中的地址、知識(shí)庫(kù)中的地址記錄,進(jìn)行行政區(qū)域級(jí)別分割;?
(b-2).對(duì)OCR結(jié)果中的單位機(jī)構(gòu)名稱、知識(shí)庫(kù)中的單位機(jī)構(gòu)名稱進(jìn)行中文分詞處理,對(duì)分詞后的各部分,分別賦以相應(yīng)的權(quán)值。?
6.如權(quán)利要求5所述的利用知識(shí)庫(kù)海量關(guān)聯(lián)信息的中文名片OCR數(shù)據(jù)修正系統(tǒng),其特征在于:?
預(yù)處理工作子模塊處理步驟b-2中,采用基于整個(gè)中文維基百科知識(shí)庫(kù)中每篇文章的中文分詞結(jié)果統(tǒng)計(jì)出的IDF值作為權(quán)值的來(lái)源。?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇唯實(shí)科技有限公司,未經(jīng)江蘇唯實(shí)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410142535.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:天然氣井泡排劑智能投送裝置
- 下一篇:多檔位電控操作手柄
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種專利文本自動(dòng)分析的系統(tǒng)及方法
- 基于知識(shí)的故障恢復(fù)支持系統(tǒng)
- 一種鐵磁諧振故障知識(shí)庫(kù)構(gòu)建方法
- 融合知識(shí)庫(kù)處理方法和裝置,以及知識(shí)庫(kù)管理系統(tǒng)
- 一種基于病理生理路徑的臨床知識(shí)庫(kù)系統(tǒng)
- 一種面向網(wǎng)絡(luò)安全的知識(shí)庫(kù)構(gòu)建方法
- 基于多知識(shí)庫(kù)推理的數(shù)據(jù)匹配決策方法及系統(tǒng)
- 一種語(yǔ)義知識(shí)庫(kù)構(gòu)建方法
- 基于人工智能的知識(shí)庫(kù)生成方法和智能機(jī)器人應(yīng)答方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 一種數(shù)據(jù)庫(kù)海量數(shù)據(jù)比對(duì)的方法
- 基于云計(jì)算的海量數(shù)據(jù)訪問(wèn)處理系統(tǒng)
- 一種實(shí)現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲(chǔ)方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實(shí)現(xiàn)海量數(shù)據(jù)準(zhǔn)實(shí)時(shí)全量統(tǒng)計(jì)的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點(diǎn)數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲(chǔ)方法
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報(bào)文關(guān)聯(lián)方法、報(bào)文關(guān)聯(lián)裝置及報(bào)文關(guān)聯(lián)系統(tǒng)





