[發(fā)明專利]一種基于嵌入雙邊卷積激活的場景文字識別方法有效
| 申請?zhí)枺?/td> | 201710959628.8 | 申請日: | 2017-10-16 |
| 公開(公告)號: | CN107622267B | 公開(公告)日: | 2020-07-28 |
| 發(fā)明(設(shè)計)人: | 張重;王紅;劉爽 | 申請(專利權(quán))人: | 天津師范大學(xué) |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京中政聯(lián)科專利代理事務(wù)所(普通合伙) 11489 | 代理人: | 陳超 |
| 地址: | 300387 *** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 嵌入 雙邊 卷積 激活 場景 文字 識別 方法 | ||
1.一種基于嵌入雙邊卷積激活的場景文字識別方法,其特征在于,該方法包括以下步驟:
步驟S1,將訓(xùn)練場景文字圖像輸入至預(yù)先訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)中,得到卷積激活描述子;
步驟S2,利用所述訓(xùn)練場景文字圖像輸入至卷積神經(jīng)網(wǎng)絡(luò)中輸出得到的卷積層,得到雙邊卷積激活圖;
步驟S3,利用所述雙邊卷積激活圖對所述卷積激活描述子進(jìn)行編碼,得到所述訓(xùn)練場景文字圖像的特征向量;
步驟S4,基于所述訓(xùn)練場景文字圖像的特征向量,利用線性支持向量機進(jìn)行訓(xùn)練,得到場景文字識別分類模型;
步驟S5,按照所述步驟S1-S3獲取測試場景文字圖像的特征向量,輸入至所述場景文字識別分類模型得到場景文字識別結(jié)果;
所述步驟S1包括:
步驟S11,將所述訓(xùn)練場景文字圖像的大小歸一化為H×W,其中,H和W分別表示訓(xùn)練場景文字圖像的高度和寬度;
步驟S12,將所述訓(xùn)練場景文字圖像輸入至所述卷積神經(jīng)網(wǎng)絡(luò)中,選擇所述卷積神經(jīng)網(wǎng)絡(luò)中的一個卷積層,得到卷積激活圖HC×WC×N,其中,HC和WC分別表示卷積激活圖的高度和寬度,N表示卷積激活圖的數(shù)目;
步驟S13,從N個卷積激活圖的相同位置處提取元素,得到HC×WC個N維的卷積激活描述子;
所述步驟S2包括:
步驟S21,獲取所述卷積激活圖HC×WC×N;
步驟S22,將N個大小為HC×WC的卷積圖的對應(yīng)位置元素相加,得到卷積求和圖;
步驟S23,基于所述卷積求和圖,得到雙邊卷積激活圖;
所述卷積求和圖表示為:
其中,Ci表示卷積求和圖的第i個激活響應(yīng),表示卷積層中的第n個卷積圖的第i個激活響應(yīng),N是該卷積層中卷積激活圖的總數(shù)目;
所述雙邊卷積激活圖表示為:
其中,i和j為表示卷積激活圖中激活響應(yīng)的索引,Oj表示雙邊卷積激活圖,Bij為Ci的權(quán)重系數(shù);
所述權(quán)重系數(shù)Bij表示為:
其中,Li和Lj分別是激活響應(yīng)Ci和Cj對應(yīng)的位置信息,α是一個用來調(diào)整空間相似度影響的參數(shù),σ1是用來控制兩個激活響應(yīng)的差值對Bij影響的參數(shù),σ2是用來控制兩個激活響應(yīng)的空間距離對Bij影響的參數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3包括:
步驟S31,通過高斯混合模型對于所述卷積激活描述子進(jìn)行編碼,得到多個高斯成分的均值向量的梯度向量和多個高斯成分的協(xié)方差向量的梯度向量;
步驟S32,將所有高斯成分的均值向量和協(xié)方差向量的梯度向量組合,得到每幅訓(xùn)練場景文字圖像的特征向量。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟S31中,利用下式對于所述卷積激活描述子進(jìn)行編碼:
其中,xj表示從卷積圖中提取得到的卷積激活描述子,M表示一幅場景文字圖像中卷積激活描述子的總數(shù)目,wk,μk和σk分別表示高斯混合模型中第k個高斯分量的權(quán)重,均值向量和協(xié)方差向量,φj(k)表示卷積激活描述子xj分配到第k個高斯分量的權(quán)重,fμk表示第k個高斯成分的均值向量的梯度向量;fσk表示第k個高斯成分的協(xié)方差向量的梯度向量。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,每幅訓(xùn)練場景文字圖像的特征向量表示為:
F=(fμ1,fσ1,fμ2,fσ2,...,fμk,fσk,...,fμK,fσK),
其中,K表示高斯混合模型中高斯分量的總數(shù)目,F(xiàn)表示所述訓(xùn)練場景文字圖像最終的特征向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津師范大學(xué),未經(jīng)天津師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710959628.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 卷積運算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計算方法及系統(tǒng)
- 卷積運算方法及系統(tǒng)
- 卷積運算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計算機存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運算裝置
- 基于FPGA實現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)





