[發(fā)明專利]一種基于圖像處理的殘缺漢字識別方法在審
| 申請?zhí)枺?/td> | 201811035069.2 | 申請日: | 2018-09-06 |
| 公開(公告)號: | CN109344834A | 公開(公告)日: | 2019-02-15 |
| 發(fā)明(設(shè)計)人: | 龍華;吳睿;熊新;邵玉斌;杜慶治 | 申請(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/46 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 殘缺 漢字 漢字特征向量 漢字識別 圖像處理 數(shù)據(jù)庫 信息處理技術(shù) 二值化處理 漢字特征 漢字形狀 掃描技術(shù) 輸出識別 特征向量 特征轉(zhuǎn)化 字體文件 后提取 灰度化 識別度 排序 集合 漢語 圖像 計算機 檢測 | ||
本發(fā)明涉及一種基于圖像處理的殘缺漢字識別方法,屬于漢語信息處理技術(shù)領(lǐng)域。本發(fā)明通過TTC字體文件提取漢字特征向量以建立漢字特征向量數(shù)據(jù)庫,對任意待檢測殘缺漢字通過現(xiàn)代掃描技術(shù)及漢字形狀特征轉(zhuǎn)化為圖像,對其進行特定的灰度化、二值化處理后提取漢字特征并生成特征向量,與數(shù)據(jù)庫中現(xiàn)有漢字計算其識別度,最后通過排序輸出識別度最高的漢字集合。本發(fā)明與現(xiàn)有技術(shù)相比,主要解決了現(xiàn)有技術(shù)耗費人力且準確性欠佳等現(xiàn)象,增加了目前依靠計算機對殘缺漢字進行識別的有效性和準確性。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于圖像處理的殘缺漢字識別方法,屬于漢語信息處理技術(shù)領(lǐng)域。
背景技術(shù)
在文物考察、重要文檔辨識中,可能存在一些漢字的一部分因某種原因而被抹去,正確識別出這些殘缺的漢字對近代歷史研究及考察名人語錄等方面具有重要意義。
目前,對于殘缺漢字的識別,主要是依靠人對漢字的熟悉程度以及人工對比漢語詞典,再根據(jù)上下文信息進行推理得到,但是由于漢字的廣泛性,使得這一工作即耗時又繁瑣。若以編碼方式為Unicode的基本字符集為標準,則共有20902個漢字,即使可以根據(jù)殘缺漢字的大概字形及上下文信息推理進行篩選,但篩選結(jié)果也存在許多的備選項,更重要的是人工識別中對于這一工作難免會產(chǎn)生疏忽與厭倦,這就造成了識別殘缺漢字的難度又一步加大。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的局限和不足,提供一種基于圖像處理的殘缺漢字識別方法,以解決現(xiàn)有技術(shù)對殘缺漢字的識別耗費人力且準確性欠佳等現(xiàn)象,致力于增加目前依靠計算機對殘缺漢字進行識別的有效性和準確性。
本發(fā)明的技術(shù)方案是:一種基于圖像處理的殘缺漢字識別方法,該方法具體包括以下步驟:
Step0:從TTC字體文件中提取出每個漢字所對應(yīng)的圖像,即漢字圖像大小為l×w(單位為像素點),共計N個像素點;將漢字圖像作為輸入源,生成該漢字所對應(yīng)的漢字矩陣Il×w,該矩陣中的元素值即為該像素點的灰度值;定義ξ為灰度二值化閾值,對矩陣Il×w進行公式(1)所示二值化處理,之后將矩陣Il×w按照從左至右、從上至下的規(guī)則生成該漢字所對應(yīng)的特征向量{f1,f2,…,fN};將所有漢字及生成的漢字特征向量存入數(shù)據(jù)庫,組建漢字特征向量數(shù)據(jù)庫;
Step1:利用現(xiàn)代掃描技術(shù)及漢字形狀特征,從紙張或其他載體中提取出待檢測殘缺漢字X的圖像,將圖像以l:w的比例剪切至待檢測殘缺漢字X盡可能鋪滿圖像為止,但要將其殘缺漢字重心處于圖像的中心,并留取合適的邊距,生成待檢測殘缺漢字X的掃描圖像
Step2:將待檢測殘缺漢字X的掃描圖像按比例壓縮至l×w像素點,共計N個像素點,隨后生成殘缺漢字X的掃描圖像所對應(yīng)的漢字矩陣Xl×w,該矩陣中的元素值即為該像素點的灰度值;依然以ξ為灰度二值化閾值,對矩陣Xl×w進行公式(2)所示二值化處理,之后將矩陣Xl×w按照從左至右、從上至下的規(guī)則生成殘缺漢字X所對應(yīng)的特征向量{x1,x2,…,xN};
Step3:調(diào)取漢字特征向量數(shù)據(jù)庫中的漢字特征向量{f1,f2,…,fN},記其所對應(yīng)的漢字為F,通過差值算法計算其與殘缺漢字X的特征向量{x1,x2,…,xN}之間的識別度Sbd(X,F);具體實施步驟如Step3.1~Step3.2所示;
Step3.1:定義zi=xi-fi,i∈[1,N],生成殘缺漢字X與漢字F所對應(yīng)的差值特征向量
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811035069.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





