[發明專利]一種字符去粘連的方法及系統在審
| 申請號: | 201310556645.9 | 申請日: | 2013-11-11 |
| 公開(公告)號: | CN104636747A | 公開(公告)日: | 2015-05-20 |
| 發明(設計)人: | 李平立;史培培 | 申請(專利權)人: | 北京大學;方正國際軟件(北京)有限公司;方正國際軟件有限公司 |
| 主分類號: | G06K9/54 | 分類號: | G06K9/54;G06K9/20 |
| 代理公司: | 北京天悅專利代理事務所(普通合伙) 11311 | 代理人: | 田明;任曉航 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 字符 粘連 方法 系統 | ||
技術領域
本發明屬于圖像中字符處理技術領域,具體涉及一種字符去粘連的方法及系統。
背景技術
在識別圖像中待識別區域的文字時會遇到字符間存在粘連的情況,為了獲得更加準確的識別結果,在將字符送入OCR之前,需要對粘連字符進行去粘連。字符之間的粘連情況是十分復雜的,一方面字符粘連的情況千差萬別,另一方面字符粘連的個數是不固定的。
現有的最常用的去粘連方法是投影法。投影法將投影最小值的地方作為切分點,這種方法在粘連點粘連比較厚重的情況下會導致切分錯誤,例如0與0粘連的時候。針對數字去粘連還有人提出了滴水算法。滴水算法模擬水滴下落的過程,根據水滴下落的原則得到切分路徑。但是這種方法的局限于起始點的選擇和水滴下落的規則,并且只能解決2個數字粘連的問題。另外,還有人提出了一種基于粘連區域細化圖像中特征點的字符去粘連方法。該方法先利用細化圖像找到若干特征點,然后利用這些特征點根據一定規則構建所有可能的切分路徑,最后根據最優化方法找到最可能的切分路徑。該方法的缺點是只能解決2個字符粘連的問題。
因此,現有的字符去粘連方法大多只能處理2個字符粘連的情況,且去粘連的效果也不是很高。
發明內容
針對現有技術中存在的缺陷,本發明的目的是提供一種字符去粘連的方法及系統,實現多個字符的去粘連,提高去粘連的效果。
為達到以上目的,本發明采用的技術方案是:
一種字符去粘連的方法,包括以下步驟:
(1)設定待處理字符圖像的先驗知識集;所述的先驗知識集是指待處理圖像中字符的屬性特征的集合;
(2)對待處理字符圖像進行連通域分析,并計算字符高度H和字符寬度W,確定連通域分析結果中需要進行拆分的連通域;
(3)對需要進行拆分的連通域進行拆分點定位,得到所有的拆分方案;
(4)采用所有的拆分方案分別對需要進行拆分的連通域進行拆分,對每種拆分方案對應的字符拆分結果進行OCR識別,得到圖像的字符識別結果;
(5)根據先驗知識評價函數對每種拆分方案對應的字符識別結果進行評價,將評價最匹配的字符識別結果作為去粘連后的識別結果;所述的先驗知識評價函數是根據先驗知識集構造的用于評價字符識別結果是否符合先驗知識集中字符屬性特征的函數。
進一步,如上所述的一種字符去粘連的方法,在步驟(3)和步驟(4)之間,在采用所有的拆分方案對需要進行拆分的連通域進行拆分之前,還包括:
根據所述的先驗知識集排除所有拆分方案中不可行的拆分方案。
進一步,如上所述的一種字符去粘連的方法,步驟(1)中,所述的先驗知識集中包括字符的最大寬高比Ratiomax、最小寬高比Ratiomin、字符特性和字符的版面排布準則。
進一步,如上所述的一種字符去粘連的方法,所述的字符特性包括字符間的高度和寬度關系;所述的版面排布準則包括字符間的字符間距關系、以及字符間距與字符高度或者寬度的關系。
進一步,如上所述的一種字符去粘連的方法,步驟(2)中,計算字符高度H和字符寬度W的具體方式如下:
字符高度H為進行連通域分析后得到的所有連通域的高度的均值,字符寬度W=Ratiomax×H。
進一步,如上所述的一種字符去粘連的方法,步驟(2)中,確定連通域分析結果中需要進行拆分的連通域的具體方式為:
查看當前連通域的寬度Wcur是否滿足Wcur>n×W,1<n<1.5,若是則確定該連通域需要進行拆分。
再進一步,如上所述的一種字符去粘連的方法,步驟(3)中,通過細化圖的方式對需要進行拆分的連通域進行拆分點定位,具體方式包括:
1)將需要進行拆分的連通域的粘連圖像進行背景細化,得到背景細化圖;
2)在所述背景細化圖的上下分割線上查找交叉點作為特征點,上下分割線上成對出現的特征點作為一個拆分點,上下分隔線上單獨出現的特征點作為一個拆分點。
更進一步,如上所述的一種字符去粘連的方法,步驟(3)中,根據先驗知識集對需要進行拆分的連通域進行拆分點定位,具體方式包括:
a.根據字符間距與字符高度或者寬度的關系計算字符間距;
b.根據當前連通域的寬度Wcur與字符間距Dcenter確定粘連字符的個數m,計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學;方正國際軟件(北京)有限公司;方正國際軟件有限公司,未經北京大學;方正國際軟件(北京)有限公司;方正國際軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310556645.9/2.html,轉載請聲明來源鉆瓜專利網。





