[發明專利]基于打印字庫分析的打印文件鑒別方法有效
| 申請號: | 201310538041.1 | 申請日: | 2013-10-29 |
| 公開(公告)號: | CN103810484B | 公開(公告)日: | 2017-10-10 |
| 發明(設計)人: | 姚勇;王韋樺;張東方;郭紅艷 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 打印 字庫 分析 文件 鑒別方法 | ||
1.基于打印字庫分析的打印文件鑒別方法,其特征在于:步驟包括:提取不同型號的樣本打印機漢字圖像的特征,通過學習過程,把樣本訓練成為系統所用的不同型號打印機相同漢字所對應的特征值庫,即筆畫特征和簡化的HU矩特征值,即獲取漢字圖像的總像素數、交點數這些統計信息,依次與特征漢字庫匹配,完成對漢字庫的粗級分類,結果作為下一步識別的匹配對象;然后,在上一步的基礎上,利用HU矩特征值,更深層次的表征此漢字,直至表征的特征信息能夠唯一的辨別出圖像中的漢字;
其具體過程為:
(1)字體的特征提取與字庫建立:漢字圖像特征的提取,就是根據漢字圖像的特點,研究出能夠代表它的碼字,這個碼字對應一個漢字字符,經過訓練學習,采用相同的特征表示方法,建立屬于這一類型特征的漢字庫,步驟為:
(1a)提取筆畫特征序列:從對漢字的特征分析,筆畫方向線索全面、準確、穩定地反映了漢字的組成信息,通過統計待檢驗文件中漢字文檔圖像的筆畫特征,實現區分不同的漢字字體,并由此來判讀其所屬的打印機類型,具體實現步驟如下:
第1步,將漢字圖像平均分為八個區域,按照從左到右,從上到下的順序依次統計每一個區域內的黑像素點,即值為1的像素點,這樣,根據八個區域內的黑像素數可以獲得八個特征值;
第2步,采用筆劃穿越獲取特征值,選用橫向兩次穿越和縱向兩次穿越,即在橫向的1/3和2/3處分別穿越,記錄穿過的黑點數,同理,在縱向依此方法,這樣,又可以得到四個特征值;
第3步,統計圖像中所有黑像素點數,這樣,就又獲得一個特征值,加上第一步的八個特征值、第二步的四個特征值,共就有十三個特征值;
(1b)提取筆畫序列的距特征:對于每個筆畫特征序列,在考慮特征維數和計算速度的基礎上,提取離散HU矩的一階矩和二階矩作為特征值:對圖像的處理使用離散函數,設f(x,y)為某二維圖像函數,則其(p+q)階原點矩定義為:
其中即為區域的矩心坐標;同時歸一化的中心矩表示為ηpq,定義為:
其中Y=(p+q)/2;
利用二階和三階規格化中心矩可導出7個不變矩組,中心矩的階數越大,所反映的形狀細節越多,但同時對噪聲越敏感,而且計算量大,并且在離散情況下只有M1仍然具有旋轉不變性;選用不變量M1,M2,M3,M4;圖像的不變矩在圖像發生仿射變換時具有不變性,即當圖像在旋轉、平移、均勻伸縮變換時,其矩的量值不會發生改變,且M1,M2,M3,M4計算量不是太大,選其作為識別目標的不變參量是合適的,選取φ1=M1,φ2=M2,φ3=M3,φ4=M4作為前4個特征量:
(1c)標準字庫的建立:提取不同型號的樣本打印機漢字圖像的特征,通過學習過程,把樣本訓練成為系統所用的不同型號打印機相同漢字所對應的特征值庫,即以最常用的標準漢字為對象,字體分別為常用的宋體、仿宋體、楷體、黑體、隸書和幼圓,字號為一至六號,選取簡化的HU矩特征值,對于待識別漢字,采用二級編碼的方式:首先獲取漢字圖像的總像素數、交點數這些統計信息,依次與特征漢字庫匹配,完成對漢字庫的粗級分類,結果作為下一步識別的匹配對象;其次,在上一步的基礎上,利用HU矩特征值,更深層次的表征此漢字,直至表征的特征信息能夠唯一的辨別出圖像中的漢字;
(2)分類器設計:通過待檢文字與標準字庫特征值的對比,實現文件打印機類型的鑒別;在多種因素制約下,在處理大字符集識別問題時,選擇最小距離分類器;采用基于置信度分析的粗、細分類兩級分類的策略來完成待識別文字符所屬類別的判斷:
(2a)粗分類:設計一種歐氏距離分類器,設Mi是待識別字體的第i個HU矩特征值,是第k種字體的第i個標準HU矩特征均值,當滿足下面條件時,待識別字體被認為是第k0種字體,其中G為字體類別數;
(2b)細分類:采用修正二次鑒別函數MQDF作為細分類度量,它是馬氏距離的一個變形,其函數形式為:
其中λij和φij分別為第j類樣本的協方差矩陣的第i個特征值和特征向量,K表示所截取的主本征向量的個數,即模式類的主子空間維數,其最優值由實驗確定,h2是對小本征值的實驗估計;MQDF產生的是二次判決曲面,因只需估計每個類別協方差陣的前K個主本征向量,避免了小本征值估計誤差的負面影響;MQDF鑒別距離看作是在d維主子空間內的馬氏距離和剩余的(d-K)維空間內的歐氏距離的加權和,加權因子為1/h2;
(2c)置信度計算:設粗分類器的輸出候選集為{(c1,d1),(c2,d2),...(cn,dn)},n為候選集容量,dn和dn分別為候選字符和對應的粗分類距離;若c1已為輸入字符的正確分類時,則細分類沒必要進行;依據粗分結果的置信度fcon的大小決定是否需要進行細分類,采用輸出的距離作為度量,依下計算置信度:
fcon=(d2-d1)/d1 (7)
置信度低于所設閾值時,將粗分類候選集送入細分類器處理,否則直接輸出粗分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310538041.1/1.html,轉載請聲明來源鉆瓜專利網。





