[發(fā)明專利]一種基于嵌入雙邊卷積激活的場景文字識別方法有效
| 申請?zhí)枺?/td> | 201710959628.8 | 申請日: | 2017-10-16 |
| 公開(公告)號: | CN107622267B | 公開(公告)日: | 2020-07-28 |
| 發(fā)明(設(shè)計)人: | 張重;王紅;劉爽 | 申請(專利權(quán))人: | 天津師范大學(xué) |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京中政聯(lián)科專利代理事務(wù)所(普通合伙) 11489 | 代理人: | 陳超 |
| 地址: | 300387 *** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 嵌入 雙邊 卷積 激活 場景 文字 識別 方法 | ||
本發(fā)明實施例公開了一種基于嵌入雙邊卷積激活的場景文字識別方法,該方法包括:將訓(xùn)練場景文字圖像輸入至預(yù)先訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)中,得到卷積激活描述子;利用所選擇的卷積層,得到雙邊卷積激活圖;利用雙邊卷積激活圖對卷積激活描述子進行編碼,得到訓(xùn)練場景文字圖像的特征向量,利用線性支持向量機進行訓(xùn)練,得到場景文字識別分類模型;獲取測試場景文字圖像的特征向量,輸入至場景文字識別分類模型得到場景文字識別結(jié)果。本發(fā)明利用雙邊卷積激活圖進行特征向量表示,能夠?qū)⒅匾奶卣餍畔⒑凸P畫結(jié)構(gòu)信息有效的結(jié)合在特征向量中,達到有效挖掘顯著特征信息和筆畫結(jié)構(gòu)信息的目的,從而有效提高了場景文字識別的正確率。
技術(shù)領(lǐng)域
本發(fā)明屬于模式識別技術(shù)領(lǐng)域,具體涉及一種基于嵌入雙邊卷積激活的場景文字識別方法。
背景技術(shù)
場景文字識別在模式識別領(lǐng)域扮演著重要的角色,很多應(yīng)用都需要借助場景文字識別來自動地理解場景中的文字。然而,場景文字識別仍然是一個非常具有挑戰(zhàn)性的研究方向,因為場景文字受到很多外界因素的影響,比如:不均勻的光照、變形、任意的字體、失真、復(fù)雜的背景、模糊、噪聲等等。
近幾十年來,場景文字識別受到廣泛的關(guān)注,一些早期的方法利用光學(xué)字符識別技術(shù)來識別場景中的文字。光學(xué)字符識別技術(shù)依賴于場景文本二值化和成熟的光學(xué)字符識別引擎。其中,場景文本二值化是非常難以實現(xiàn)的。考慮到光學(xué)字符識別技術(shù)的局限性,Gao等人提出在傳統(tǒng)的BoW(Bag of Words,詞包模型)的框架下創(chuàng)建空間嵌入詞典,來獲取場景文字圖像的最終的特征表示。Newell等人利用多尺度的HOG(Histogram of OrientedGradients,梯度直方圖)進行特征表示來識別自然場景中的文字。盡管他們的方法取得了一定的成效,但是他們的特征表示缺乏判別性。因此為了解決此問題,Perronnin等人提取使用GMM(Gaussian Mixture Model,高斯混合模型)來學(xué)習(xí)碼本,并將GMM的均值向量和協(xié)方差向量的導(dǎo)數(shù)連接起來得到最終的FV(Fisher vectors)。與傳統(tǒng)的BOW相比,F(xiàn)V對更高層次的信息進行編碼,但是FV很容易在最終表示中引入噪聲或者異常值。為此,Wang等人將卷積神經(jīng)網(wǎng)絡(luò)中的全連接層的輸出作為最終的圖像表示。Jaderberg等人同樣將卷積神經(jīng)網(wǎng)絡(luò)中的全連接層的輸出作為最終的圖像表示,并得到較好的分類效果。Cimpoi和Babenko等人證明了使用卷積激活描述子來表示特征比使用全連接層的輸出表示特征得到的分類準(zhǔn)確率高。雖然這些方法取得了一定的成效,但是他們在一定程度上忽視了文字的重要特征信息和筆畫結(jié)構(gòu)信息。由于不同文字在不同的位置可能包含相同的特征信息,這會造成重構(gòu)誤差,所以不能夠充分的保留重要的特征信息和有效的筆畫結(jié)構(gòu)信息。
發(fā)明內(nèi)容
本發(fā)明的目的是要解決文字特征信息和筆畫結(jié)構(gòu)信息對場景文字識別結(jié)果影響較大的技術(shù)問題,為此,本發(fā)明提供一種基于嵌入雙邊卷積激活的場景文字識別方法。
為了實現(xiàn)所述目的,本發(fā)明嵌入雙邊卷積激活的場景文字識別方法包括以下步驟:
步驟S1,將訓(xùn)練場景文字圖像輸入至預(yù)先訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)中,得到卷積激活描述子;
步驟S2,利用所述訓(xùn)練場景文字圖像輸入至卷積神經(jīng)網(wǎng)絡(luò)中輸出得到的卷積層,得到雙邊卷積激活圖;
步驟S3,利用所述雙邊卷積激活圖對所述卷積激活描述子進行編碼,得到所述訓(xùn)練場景文字圖像的特征向量;
步驟S4,基于所述訓(xùn)練場景文字圖像的特征向量,利用線性支持向量機進行訓(xùn)練,得到場景文字識別分類模型;
步驟S5,按照所述步驟S1-S3獲取測試場景文字圖像的特征向量,輸入至所述場景文字識別分類模型得到場景文字識別結(jié)果。
可選地,所述步驟S1包括:
步驟S11,將所述訓(xùn)練場景文字圖像的大小歸一化為H×W,其中,H和W分別表示訓(xùn)練場景文字圖像的高度和寬度;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津師范大學(xué),未經(jīng)天津師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710959628.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 卷積運算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計算方法及系統(tǒng)
- 卷積運算方法及系統(tǒng)
- 卷積運算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計算機存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運算裝置
- 基于FPGA實現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)





