[發明專利]一種基于時空卷積神經網絡的圖像字符識別方法有效
| 申請號: | 201911019366.2 | 申請日: | 2019-10-24 |
| 公開(公告)號: | CN110837830B | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 鄭瑩斌;杜響成;葉浩 | 申請(專利權)人: | 上海兌觀信息科技技術有限公司 |
| 主分類號: | G06V30/19 | 分類號: | G06V30/19;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 上海互順專利代理事務所(普通合伙) 31332 | 代理人: | 韋志剛 |
| 地址: | 201203 上海市浦東新區中國(上海)自由貿易試*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時空 卷積 神經網絡 圖像 字符 識別 方法 | ||
1.一種基于時空卷積神經網絡的圖像字符識別方法,其特征在于,包括以下步驟:
步驟S01、對輸入的圖像進行預處理;
步驟S02、利用時空卷積神經網絡提取輸入圖像的特征;
步驟S03、對提取的特征進行序列建模;
步驟S04、根據提取的特征序列進行最后結果的預測;
所述步驟02中,首先通過卷積層、非線性層和下采樣層抽象出圖像的全局特征,其定義如下:
F:In→Out,In∈RH′×W′×C′,Out∈RH×W×C
其中,In為網絡的輸入,圖像或者特征圖,Out是網絡的輸出特征圖,W′、H′和C′分別為輸入特征圖的長、寬和通道數;W、H和C分別為輸出特征圖的長、寬和通道數;
所述步驟02中,然后采用通道權重學習機制來捕獲通道特征之間的依賴關系,權重因子學習過程如下:
a.對通道特征F沿著通道維度進行全局平均池化操作,數學表達式如下所示:
其中,gc是由c個特征圖的數值分布構成的向量,AvgPool代表全局池化操作,out代表網絡輸出的特征圖,H、W代表特征圖的寬與長;
b.通過gc建立通道之間的關系,通過學習參數為每個特征通道分配不同的權重,數學表達式如下所示:
s=σ(W2δ(W1gc))
其中,步驟a得到的結果是gc,W1表示全連接層的參數,W1的維度是r是一個縮放參數;δ表示ReLU激活函數,W2代表全連接層的參數,W2的維度是σ表示sigmoid激活函數;
c.s刻畫C個特征圖的權重,通過乘法逐通道加權到先前的特征上,完成在通道維度上的對原始特征的重標定,數學表達式如下所示:
其中,表示最后得到的特征圖。
2.如權利要求1所述的基于時空卷積神經網絡的圖像字符識別方法,其特征在于,所述步驟01中,對輸入的圖像進行預處理包括對模糊的圖像進行去模糊處理以及對傾斜扭曲的圖像進行轉正處理。
3.如權利要求1所述的基于時空卷積神經網絡的圖像字符識別方法,其特征在于,所述步驟01中,對輸入的圖像進行預處理過程中以n張圖像為單位進行訓練,將圖像尺寸歸一化。
4.如權利要求3所述的基于時空卷積神經網絡的圖像字符識別方法,其特征在于,將圖像尺寸歸一化具體包括:將圖像以高度為32個像素進行等比縮放,同時以n張圖像中寬度最大的圖像為基準,將其它寬度不足最大寬度的圖像進行像素值為0的填充。
5.如權利要求1所述的基于時空卷積神經網絡的圖像字符識別方法,其特征在于,所述步驟03中,對提取的特征進行序列建模過程中,空洞卷積允許卷積計算時的輸入存在間隔采樣,使得有效窗口的大小隨著層數呈指數型增長,在t時刻空洞卷積的數學定義如下:
其中,F為卷積核,S為特征序列,k為一維卷積的尺寸,d為空洞卷積的擴張參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海兌觀信息科技技術有限公司,未經上海兌觀信息科技技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911019366.2/1.html,轉載請聲明來源鉆瓜專利網。





