[發(fā)明專利]一種基于圖像處理的殘缺漢字識別方法在審
| 申請?zhí)枺?/td> | 201811035069.2 | 申請日: | 2018-09-06 |
| 公開(公告)號: | CN109344834A | 公開(公告)日: | 2019-02-15 |
| 發(fā)明(設計)人: | 龍華;吳睿;熊新;邵玉斌;杜慶治 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/46 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 殘缺 漢字 漢字特征向量 漢字識別 圖像處理 數據庫 信息處理技術 二值化處理 漢字特征 漢字形狀 掃描技術 輸出識別 特征向量 特征轉化 字體文件 后提取 灰度化 識別度 排序 集合 漢語 圖像 計算機 檢測 | ||
1.一種基于圖像處理的殘缺漢字識別方法,其特征在于:
Step0:從TTC字體文件中提取出每個漢字所對應的圖像,即漢字圖像大小為l×w,單位為像素點,共計N個像素點;將漢字圖像作為輸入源,生成該漢字所對應的漢字矩陣Il×w,該矩陣中的元素值即為該像素點的灰度值;定義ξ為灰度二值化閾值,對矩陣Il×w進行公式(1)所示二值化處理,之后將矩陣Il×w按照從左至右、從上至下的規(guī)則生成該漢字所對應的特征向量{f1,f2,…,fN};將所有漢字及生成的漢字特征向量存入數據庫,組建漢字特征向量數據庫;
Step1:利用現(xiàn)代掃描技術及漢字形狀特征,從紙張或其他載體中提取出待檢測殘缺漢字X的圖像,將圖像以l:w的比例剪切至待檢測殘缺漢字X盡可能鋪滿圖像為止,但要將其殘缺漢字重心處于圖像的中心,并留取合適的邊距,生成待檢測殘缺漢字X的掃描圖像
Step2:將待檢測殘缺漢字X的掃描圖像按比例壓縮至l×w像素點,共計N個像素點,隨后生成殘缺漢字X的掃描圖像所對應的漢字矩陣Xl×w,該矩陣中的元素值即為該像素點的灰度值;依然以ξ為灰度二值化閾值,對矩陣Xl×w進行公式(2)所示二值化處理,之后將矩陣Xl×w按照從左至右、從上至下的規(guī)則生成殘缺漢字X所對應的特征向量{x1,x2,…,xN};
Step3:調取漢字特征向量數據庫中的漢字特征向量{f1,f2,…,fN},記其所對應的漢字為F,通過差值算法計算其與殘缺漢字X的特征向量{x1,x2,…,xN}之間的識別度Sbd(X,F);具體實施步驟如Step3.1~Step3.2所示;
Step3.1:定義zi=xi-fi,i∈[1,N],生成殘缺漢字X與漢字F所對應的差值特征向量
Step3.2:通過差值計算公式(3)求得殘缺漢字X與漢字F之間的識別度Sbd(X,F);
Step4:遍歷漢字特征向量數據庫中的所有數據,對數據庫中每個漢字Fi,i∈[1,K]都經Step3步驟計算其與殘缺漢字X之間的識別度Sbd(X,Fi),i∈[1,K];將按照從大到小的順序排序,提取出前θ個待定漢字并輸出。
2.根據權利要求1所述的基于圖像處理的殘缺漢字識別方法,其特征在于:所述步驟Step0中,漢字圖像大小l×w是由字體文件中提取的漢字字體大小決定,且總像素點N=l×w;并且灰度二值化閾值ξ滿足公式(4)的要求;
0≤ξ≤255 (4)。
3.根據權利要求1所述的基于圖像處理的殘缺漢字識別方法,其特征在于:所述步驟Step4中,K即為漢字的總個數,若按照編碼方式為Unicode的基本字符集為標準,則共有20902個漢字,即K=20902。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811035069.2/1.html,轉載請聲明來源鉆瓜專利網。





