[發(fā)明專利]基于多分辨自動(dòng)編碼器的光學(xué)符號(hào)識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110301000.5 | 申請(qǐng)日: | 2021-03-22 |
| 公開(公告)號(hào): | CN112818978A | 公開(公告)日: | 2021-05-18 |
| 發(fā)明(設(shè)計(jì))人: | 金立左;許歆逸;張向向;閻俊 | 申請(qǐng)(專利權(quán))人: | 東南大學(xué) |
| 主分類號(hào): | G06K9/20 | 分類號(hào): | G06K9/20;G06K9/34;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京眾聯(lián)專利代理有限公司 32206 | 代理人: | 薛雨妍 |
| 地址: | 210096 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 分辨 自動(dòng) 編碼器 光學(xué) 符號(hào) 識(shí)別 方法 | ||
本發(fā)明公開了一種基于多分辨自動(dòng)編碼器的光學(xué)符號(hào)識(shí)別方法,首先,指定分塊大小,對(duì)圖像進(jìn)行隨機(jī)采樣,獲得若干大小一致的圖像塊。接著,對(duì)圖像塊使用指定參數(shù)的Gabor濾波器組進(jìn)行濾波,獲得含有多尺度多方向信息的Gabor特征。隨后,基于倒金字塔格式的采樣布局,以不同的空間采樣率對(duì)圖像塊上相應(yīng)尺度的Gabor特征進(jìn)行均勻采樣,實(shí)現(xiàn)大尺度特征對(duì)小尺度特征感受野的充分覆蓋。最后,將加噪圖像塊及其對(duì)應(yīng)的Gabor特征采樣分別作為多分辨自動(dòng)編碼器的主分支輸入與副分支輸入進(jìn)行高維特征的學(xué)習(xí)與融合。本發(fā)明公開的擬孿生神經(jīng)網(wǎng)絡(luò),旨在獲得一組融合的高維特征,既能學(xué)習(xí)輸入圖像的基本形狀特征,又能自動(dòng)學(xué)習(xí)Gabor濾波器組提取的多尺度紋理特征。分類識(shí)別時(shí),較之降噪自動(dòng)編碼器,本發(fā)明以相同的計(jì)算量,獲取了更加豐富的特征信息,對(duì)光學(xué)符號(hào)取得了更高的識(shí)別精度。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)領(lǐng)域;尤其涉及基于多分辨自動(dòng)編碼器的光學(xué)符號(hào)識(shí)別方法。
背景技術(shù)
自動(dòng)編碼器是一種無監(jiān)督學(xué)習(xí)算法,1986年由Rumelhart首次提出。2006年Hinton等人提出深度自動(dòng)編碼器,相比基礎(chǔ)自動(dòng)編碼器,深度自動(dòng)編碼器增加了隱含層層數(shù),增強(qiáng)了隱含層表達(dá)能力。2007年Bengio等人在此基礎(chǔ)上提出堆疊自動(dòng)編碼器,使網(wǎng)絡(luò)在監(jiān)督學(xué)習(xí)階段更快的迭代收斂。隨后,Vincent等人在2008年和2010年分別提出降噪自動(dòng)編碼器和堆疊降噪自動(dòng)編碼器,通過引入噪聲,提高自動(dòng)編碼器訓(xùn)練所得特征的魯棒性。2010年Rifai等人提出壓縮自動(dòng)編碼器,通過收縮隱含層,對(duì)維度加以約束,提高特征表達(dá)能力。2011年Masci等人提出卷積自動(dòng)編碼器,用于構(gòu)建卷積自動(dòng)編碼網(wǎng)絡(luò)。上述自動(dòng)編碼器的發(fā)展歷程中,始終以重建特性為訓(xùn)練目標(biāo),僅僅學(xué)習(xí)輸入圖像的結(jié)構(gòu)特征,缺乏多尺度多分辨紋理信息,在光學(xué)字符識(shí)別中,難以取得令人滿意的結(jié)果。尤其在遇到旋轉(zhuǎn)、縮放和其它圖像畸變時(shí),傳統(tǒng)自動(dòng)編碼器難以保持較高識(shí)別精度。
Gabor特征是1946年D.Gabor提出的可用于描述圖像紋理的特征,Gabor濾波器涉及的頻率和方向與人類視覺系統(tǒng)類似,特別適合紋理表示。2003年Qin等人將Gabor特征用于車牌字符識(shí)別,取得較好效果。2008年Li等人利用Gabor特征與LMBP神經(jīng)網(wǎng)絡(luò)進(jìn)一步提高車牌字符識(shí)別準(zhǔn)確率。2012年Luo等人將Gabor變換用于中文字符特征提取。2015年Zhong等人在中文光學(xué)字符識(shí)別中將原始圖像與其Gabor濾波結(jié)果一同作為網(wǎng)絡(luò)輸入,增強(qiáng)網(wǎng)絡(luò)性能。2018年Luan等人提出Gabor卷積網(wǎng),將特定Gabor濾波器組與學(xué)習(xí)得到的CNN卷積核逐元素相乘,賦予CNN卷積核Gabor多尺度多方向特性。上述方法中,除Luan等人的Gabor卷積網(wǎng),其它算法都是將Gabor變換作為特征提取手段,提取特定參數(shù)的Gabor特征,用于光學(xué)字符識(shí)別。然而,僅依靠人工設(shè)計(jì)的多尺度多方向Gabor特征,不足以達(dá)到利用CNN學(xué)習(xí)得到的濾波器性能,難以將精度進(jìn)一步提高。Luan等人的Gabor卷積網(wǎng)將Gabor濾波器作為一種“指導(dǎo)”,強(qiáng)制CNN學(xué)習(xí)的濾波器具有多尺度多方向特性,但是CNN網(wǎng)絡(luò)參數(shù)量龐大,引入Gabor濾波器提高精度的同時(shí),計(jì)算量也會(huì)隨之驟增。
綜上所述,傳統(tǒng)自動(dòng)編碼器在光學(xué)字符識(shí)別上,受限于重建輸入的特性,難以學(xué)習(xí)到除圖像基本結(jié)構(gòu)以外的多尺度多方向特征;Gabor特征具有多尺度多方向特性,往往被用于特征提取,但是單一的Gabor特征無法進(jìn)一步提高光學(xué)字符識(shí)別精度,且人工設(shè)計(jì)的Gabor濾波器無法有效應(yīng)用在神經(jīng)網(wǎng)絡(luò)中,無法在不顯著增加計(jì)算量的同時(shí),指導(dǎo)神經(jīng)網(wǎng)絡(luò)自發(fā)學(xué)習(xí)多尺度多分辨特性。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明公開了一種基于多分辨自動(dòng)編碼器的光學(xué)符號(hào)識(shí)別方法,在保持模型較低計(jì)算量的前提下,盡可能提高分類識(shí)別精度,并且對(duì)旋轉(zhuǎn)、縮放和其它圖像畸變具有較高的魯棒性。
本發(fā)明的技術(shù)方案如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110301000.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





