[發(fā)明專利]一種字符去粘連的方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201310556645.9 | 申請日: | 2013-11-11 |
| 公開(公告)號: | CN104636747A | 公開(公告)日: | 2015-05-20 |
| 發(fā)明(設(shè)計)人: | 李平立;史培培 | 申請(專利權(quán))人: | 北京大學(xué);方正國際軟件(北京)有限公司;方正國際軟件有限公司 |
| 主分類號: | G06K9/54 | 分類號: | G06K9/54;G06K9/20 |
| 代理公司: | 北京天悅專利代理事務(wù)所(普通合伙) 11311 | 代理人: | 田明;任曉航 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 字符 粘連 方法 系統(tǒng) | ||
1.一種字符去粘連的方法,包括以下步驟:
(1)設(shè)定待處理字符圖像的先驗知識集;所述的先驗知識集是指待處理圖像中字符的屬性特征的集合;
(2)對待處理字符圖像進行連通域分析,并計算字符高度H和字符寬度W,確定連通域分析結(jié)果中需要進行拆分的連通域;
(3)對需要進行拆分的連通域進行拆分點定位,得到所有的拆分方案;
(4)采用所有的拆分方案分別對需要進行拆分的連通域進行拆分,對每種拆分方案對應(yīng)的字符拆分結(jié)果進行OCR識別,得到圖像的字符識別結(jié)果;
(5)根據(jù)先驗知識評價函數(shù)對每種拆分方案對應(yīng)的字符識別結(jié)果進行評價,將評價最匹配的字符識別結(jié)果作為去粘連后的識別結(jié)果;所述的先驗知識評價函數(shù)是根據(jù)先驗知識集構(gòu)造的用于評價字符識別結(jié)果是否符合先驗知識集中字符屬性特征的函數(shù)。
2.如權(quán)利要求1所述的一種字符去粘連的方法,其特征在于,在步驟(3)和步驟(4)之間,在采用所有的拆分方案對需要進行拆分的連通域進行拆分之前,還包括:
根據(jù)所述的先驗知識集排除所有拆分方案中不可行的拆分方案。
3.如權(quán)利要求1或2所述的一種字符去粘連的方法,其特征在于,步驟(1)中,所述的先驗知識集中包括字符的最大寬高比Ratiomax、最小寬高比Ratiomin、字符特性和字符的版面排布準(zhǔn)則。
4.如權(quán)利要求3所述的一種字符去粘連的方法,其特征在于,所述的字符特性包括字符間的高度和寬度關(guān)系;所述的版面排布準(zhǔn)則包括字符間的字符間距關(guān)系、以及字符間距與字符高度或者寬度的關(guān)系。
5.如權(quán)利要求4所述的一種字符去粘連的方法,其特征在于,步驟(2)中,計算字符高度H和字符寬度W的具體方式如下:
字符高度H為進行連通域分析后得到的所有連通域的高度的均值,字符寬度W=Ratiomax×H。
6.如權(quán)利要求1所述的一種字符去粘連的方法,其特征在于,步驟(2)中,確定連通域分析結(jié)果中需要進行拆分的連通域的具體方式為:
查看當(dāng)前連通域的寬度Wcur是否滿足Wcur>n×W,1<n<1.5,若是則確定該連通域需要進行拆分。
7.如權(quán)利要求6所述的一種字符去粘連的方法,其特征在于,步驟(3)中,通過細(xì)化圖的方式對需要進行拆分的連通域進行拆分點定位,具體方式包括:
1)將需要進行拆分的連通域的粘連圖像進行背景細(xì)化,得到背景細(xì)化圖;
2)在所述背景細(xì)化圖的上下分割線上查找交叉點作為特征點,上下分割線上成對出現(xiàn)的特征點作為一個拆分點,上下分隔線上單獨出現(xiàn)的特征點作為一個拆分點。
8.如權(quán)利要求6所述的一種字符去粘連的方法,其特征在于,步驟(3)中,根據(jù)先驗知識集對需要進行拆分的連通域進行拆分點定位,具體方式包括:
a.根據(jù)字符間距與字符高度或者寬度的關(guān)系計算字符間距;
b.根據(jù)當(dāng)前連通域的寬度Wcur與字符間距Dcenter確定粘連字符的個數(shù)m,計算公式為:
m=Wcur/Dcenter;
c.根據(jù)粘連字符的個數(shù)和字符間距將當(dāng)前連通域等字符間距拆分,得到拆分點。
9.一種字符去粘連的系統(tǒng),包括:
先驗知識集設(shè)定模塊,用于設(shè)定待處理字符圖像中字符的先驗知識集;所述的先驗知識集是指待處理圖像中字符的屬性特征的集合;
待拆分區(qū)域確定模塊,用于對待處理字符圖像進行連通域分析,并計算字符高度H和字符寬度W,確定連通域分析結(jié)果中需要進行拆分的連通域;
拆分方案排除模塊,用于對需要進行拆分的連通域進行拆分點定位,得到所有的拆分方案;
字符識別模塊,用于采用所有的拆分方案分別對需要進行拆分的連通域進行拆分,對每種拆分方案對應(yīng)的字符拆分結(jié)果進行OCR識別,得到拆分后的字符識別結(jié)果;
識別結(jié)果確定模塊,用于根據(jù)先驗知識評價函數(shù)對每種拆分方案對應(yīng)的字符識別結(jié)果進行評價,將評價最匹配的字符識別結(jié)果作為去粘連后的識別結(jié)果;所述的先驗知識評價函數(shù)是根據(jù)先驗知識集構(gòu)造的用于評價字符識別結(jié)果是否符合先驗知識集中字符屬性特征的函數(shù)。
10.如權(quán)利要求9所述的一種字符去粘連的系統(tǒng),其特征在于,該系統(tǒng)還包括:
拆分方案排除模塊,用于根據(jù)所述的先驗知識集排除所有拆分方案中不可行的拆分方案。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué);方正國際軟件(北京)有限公司;方正國際軟件有限公司,未經(jīng)北京大學(xué);方正國際軟件(北京)有限公司;方正國際軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310556645.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





