[發明專利]一種脫機手寫體文本的字符切分方法在審
| 申請號: | 201810126424.0 | 申請日: | 2018-02-08 |
| 公開(公告)號: | CN108460384A | 公開(公告)日: | 2018-08-28 |
| 發明(設計)人: | 王寅同 | 申請(專利權)人: | 南京曉莊學院 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34 |
| 代理公司: | 南京蘇創專利代理事務所(普通合伙) 32273 | 代理人: | 何薇 |
| 地址: | 211171 江蘇省南京市江寧*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 手寫體文本 脫機 行結構 文本圖像 重心 字符識別系統 連通域分析 單個字符 粘連字符 自適應 分析 精細 關聯 轉換 | ||
1.一種脫機手寫體文本的字符切分方法,其特征在于,包括字符高度估計、字符的粗略切分和字符的精細切分;所述字符高度估計運用連通域分析法進行字符高度估計,文字高度h作為一個自適應變量,它與文本圖像的字符大小直接關聯;首先明確相鄰像素點概念,即每個像素點含有相鄰像素點的數目為八(除邊緣位置),它們分別處于該像素點的左、右、上、下、左上、右上、左下和右下八個位置;接著,筆跡像素點的連通域概念,即每個連通域是由若干個筆跡(有效)像素點組成的序列,該連通域的高度是最上方筆跡像素點位置與最下方筆跡像素點位置之差;所述字符的粗略切分基于像素空白區域完成單字符切分、粘連多字符切分以及標記;所述字符的精細切分對于標記粘連多字符的切分需要找到字符與字符之間的真正切分點,這一切分點能準確地將他們切分;為此,粘連多字符大體上分為重疊非粘連、粘連兩類;前者是指某一字符與其他字符存在垂直映射上的粘連,但是該字符筆跡像素點仍然可以通過連通域分析法得到其所有的連通域而與其他字符筆跡像素點不發生連通關系;后者是指某一字符與其他字符存在連通關系,換言之,該字符的筆跡像素點與其他字符的筆跡像素點存在重合,重合點的數量等于或大于1。
2.根據權利要求1所述的一種脫機手寫體文本的字符切分方法,其特征在于,所述字符高度估計具體步驟如下:
(1)以文本圖像的左上角和右下角為極限位置,隨機選擇k個位置點,即{(x1,y1),(x2,y2),…,(xk,yk)},其中k≥10;
(2)獲取每一個隨機位置點的最鄰近筆跡像素點,當該位置點的像素值為1,則最鄰近像素點為自身;對第i個隨機位置點(xi,yi)而言,最鄰近筆跡像素點(xi,yi)應滿足如下條件:
其中,DF表示一種距離度量函數,如歐式距離、曼哈頓距離和切比雪夫距離;表示文本圖像第xj行第yj列的像素值,其值為1,表示該位置存在筆跡像素;運用連通域來計算k個最鄰近筆跡像素點所在的筆跡連通域高度{h1,h2,…,hk};實驗結果表明,k取值范圍為[20,30],字符高度處于k個通域的平均高度與最大高度之間且偏向于后者;為此,將k個連通域的高度值按小到大排序,選擇第個高度值作為字符初始高度估計值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京曉莊學院,未經南京曉莊學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810126424.0/1.html,轉載請聲明來源鉆瓜專利網。





