[發明專利]一種字符分割方法及裝置在審
| 申請號: | 201310274340.9 | 申請日: | 2013-07-02 |
| 公開(公告)號: | CN103400132A | 公開(公告)日: | 2013-11-20 |
| 發明(設計)人: | 周龍沙;邵詩強 | 申請(專利權)人: | TCL集團股份有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34 |
| 代理公司: | 深圳中一專利商標事務所 44237 | 代理人: | 張全文 |
| 地址: | 516001 廣東省惠州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 字符 分割 方法 裝置 | ||
技術領域
本發明屬于文字處理技術領域,尤其涉及一種字符分割方法及裝置。
背景技術
字符包括漢字、字母和數字,常規的字符分割方法一般基于圖像灰度的直方圖投影,或者基于直方圖投影后計算一個平均的字符寬度進行,或者基于直方圖投影后計算一個平均字符寬度進行,或者對于每個灰度直方圖得到的點進行分析,采用一些特定措施來處理,但是上述方法這些都只是具有一定的適用范圍,只能用于對漢字或者字母中一種進行分割,如果同時對漢字、字母和數字進行分割,經常出現錯誤,效果不佳。
發明內容
本發明實施例的目的在于提供一種字符分割方法及裝置,以解決現有技術存在的,同時對漢字、字母和數字進行分割時,經常出現錯誤和效果不佳的問題。
本發明的實施例是這樣實現的,一種字符分割方法,所述方法包括以下步驟:
對包含字符的圖像進行預處理得到處理后的二值化圖像,所述預處理包括中值濾波、直方圖均衡化和圖像二值化;
對所述二值化圖像的第i行字符進行n連通域的搜索,得到第i行字符的第一矩形框組;
按照預設的合并條件,對第i行字符的第一矩形框組進行合并處理,得到第i行字符的第二矩形框組;
根據第i行字符的第二矩形框組的水平長度,采用預設定方法確定第i行字符的平均寬度;
當第i行字符的第二矩形框組的寬度與第i行字符的平均寬度差值小于預設寬度差值時,保留所述第i行字符的第二矩形框組,否則,保留所述第i行字符的第一矩形框組。
本發明的另一實施例的目的在于提供一種字符分割裝置,所述裝置包括:
預處理模塊,用于對包含字符的圖像進行預處理得到處理后的二值化圖像,所述預處理包括中值濾波、直方圖均衡化和圖像二值化;
處理模塊,用于對所述二值化圖像的第i行字符進行n連通域的搜索,得到第i行字符的第一矩形框組;
所述處理模塊,還用于按照預設的合并條件,對第i行字符的第一矩形框組進行合并處理,得到第i行字符的第二矩形框組;
計算單元,用于根據第i行字符的第二矩形框組的水平長度,采用預設定方法確定第i行字符的平均寬度;
所述處理單元,還用于當第i行字符的第二矩形框組的寬度與第i行字符的平均寬度差值小于預設寬度差值時,保留所述第i行字符的第二矩形框組,否則,保留所述第i行字符的第一矩形框組。
本發明實施例通過將字符所在矩形框進行絕對值運算,將誤分割的漢字合并,并且通過漢字與數字及字母的寬度不一樣,將漢字與數字及字符分割開,解決了現有技術存在的,同時對漢字、字母和數字進行分割時,經常出現錯誤和效果不佳的問題。
附圖說明
為了更清楚地說明本發明實施例中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是本發明一種字符分割方法第一實施例提供的實現流程圖;
圖2是本發明一種字符分割方法第一實施例提供的二值化圖像在y方向統計得到的曲線圖;
圖3是本發明一種字符分割裝置第一實施例提供的模塊結構圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
本發明第一實施例提供了字符分割方法,所述方法如圖1所示,具體步驟包括:
在步驟S101中,對包含字符的圖像進行預處理得到處理后的二值化圖像。
需要說明的是,字符包括漢字、字母和數字等,包含字符的圖像是指照相機或者掃描儀等設備拍攝紙質文本獲取的圖像,在拍攝過程中由于拍照條件可能造成字符粘連或者斷筆等,所述圖像中的字符可能只有一行,也可能有多行;所述預處理包括但不限于中值濾波、直方圖均衡化和圖像二值化,通過所述預處理將包含字符的圖像轉換為體現文字特征的圖像。
進一步需要說明的是,對于預處理后的二值化圖像,在y(y軸)方向上進行二值化數據統計,得到文字在y方向上的分布情況,根據方向上的分布情況,根據y方向的波峰數量可以確定該圖像中有多少行字符。圖2示出了對漢字、字母和數字的二值化圖像在y方向統計得到的曲線圖。
在步驟S102中,對所述二值化圖像的第i行字符進行n連通域的搜索,得到第i行字符的第一矩形框組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于TCL集團股份有限公司,未經TCL集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310274340.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種治療陽痿的中藥組合物
- 下一篇:一種新型電腦繡花線的加工方法





