[發明專利]一種基于時空卷積神經網絡的圖像字符識別方法有效
| 申請號: | 201911019366.2 | 申請日: | 2019-10-24 |
| 公開(公告)號: | CN110837830B | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 鄭瑩斌;杜響成;葉浩 | 申請(專利權)人: | 上海兌觀信息科技技術有限公司 |
| 主分類號: | G06V30/19 | 分類號: | G06V30/19;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 上海互順專利代理事務所(普通合伙) 31332 | 代理人: | 韋志剛 |
| 地址: | 201203 上海市浦東新區中國(上海)自由貿易試*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時空 卷積 神經網絡 圖像 字符 識別 方法 | ||
本發明提供了一種基于時空卷積神經網絡的圖像字符識別方法,首先對輸入的圖像進行預處理;然后利用卷積神經網絡提取輸入圖像的特征;接著對提取的特征進行序列建模;最后根據提取的特征序列進行最后結果的預測。本發明提供一種基于時空卷積神經網絡的圖像字符識別方法,直接提取圖像文本中的文本信息,減少手工文字輸入的頻率,節約手工錄入信息的時間,減少了工作量,提高了工作效率。
技術領域
本發明涉及圖像識別技術領域,具體地講,本發明涉及一種基于時空卷積神經網絡的圖像字符識別方法。
背景技術
圖像文本識別,是指利用人工智能領域的方法及技術,對文本圖像進行處理,識別提取圖像文本中的字符。圖像文本識別能夠自動提取圖像上的文本信息,有助于快速理解圖像中語義信息并且能夠幫助解決許多實際問題。例如:發票的識別及錄入,歷史檔案的電子化歸檔與檢索等。
現階段,圖像文本識別的網絡架構為:卷積神經網絡提取圖像特征,循環神經網絡對特征序列進行建模。其中,現階段的方法采用的卷積神經網絡為VGG、ResNet等,時間序列建模采用循環神經網絡:GRU、BiLSTM等。最后根據序列特征進行預測。
目前,圖像文本識別準確率極大程度上依賴于特征提取器及時間序列建模。其中,現階段方法采用的圖像特征提取算法還有準確率提升的空間,對于時間序列的建模方法對字符的長度有一定的要求,同時建模效率和模型推斷時間也較低。
因此,本領域技術人員亟需提供一種基于時空卷積神經網絡的圖像字符識別方法,直接提取圖像文本中的文本信息,減少手工文字輸入的頻率,節約手工錄入信息的時間,減少了工作量,提高了工作效率。
發明內容
本發明要解決的技術問題是:提供一種基于時空卷積神經網絡的圖像字符識別方法,其特征在于,包括以下步驟:
步驟S01、對輸入的圖像進行預處理;
步驟S02、利用時空卷積神經網絡提取輸入圖像的特征;
步驟S03、對提取的特征進行序列建模;
步驟S04、根據提取的特征序列進行最后結果的預測。
優選的,所述步驟01中,對輸入的圖像進行預處理包括對模糊的圖像進行去模糊處理以及對傾斜扭曲的圖像進行轉正處理。
優選的,所述步驟01中,對輸入的圖像進行預處理過程中以n張圖像為單位進行訓練,將圖像尺寸歸一化。
優選的,將圖像尺寸歸一化具體包括:將圖像以高度為32個像素進行等比縮放,同時以n張圖像中寬度最大的圖像為基準,將其它寬度不足最大寬度的圖像進行像素值為0的填充。
優選的,所述步驟02中,首先通過卷積層、非線性層和下采樣層抽象出圖像的全局特征,其定義如下:
F:In→Out,In∈RH′×W′×C′,Out∈RH×W×C
其中,In為網絡的輸入,圖像或者特征圖,Out是網絡的輸出特征圖,W′、H′和C′分別為輸入特征圖的長、寬和通道數;W、H和C分別為輸出特征圖的長、寬和通道數。
優選的,所述步驟02中,然后采用通道權重學習機制來捕獲通道特征之間的依賴關系,權重因子學習過程如下:
a.對通道特征F沿著通道維度進行全局平均池化操作,數學表達式如下所示:
其中,gc是由c個特征圖的數值分布構成的向量,AvgPool代表全局池化操作,out代表網絡輸出的特征圖,H、W代表特征圖的寬與長;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海兌觀信息科技技術有限公司,未經上海兌觀信息科技技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911019366.2/2.html,轉載請聲明來源鉆瓜專利網。





