[發明專利]一種自然場景圖像中的英文文字和數字識別方法有效
| 申請號: | 201710592890.3 | 申請日: | 2017-07-19 |
| 公開(公告)號: | CN107368831B | 公開(公告)日: | 2019-08-02 |
| 發明(設計)人: | 張軍;涂丹;李碩豪;陳旭;雷軍;郭強 | 申請(專利權)人: | 中國人民解放軍國防科學技術大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62 |
| 代理公司: | 國防科技大學專利服務中心 43202 | 代理人: | 徐志宏 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自然 場景 圖像 中的 英文 文字 數字 識別 方法 | ||
1.一種自然場景圖像中的英文文字和數字識別方法,包括如下步驟:
步驟(一),采用深度神經網絡中的卷積神經網絡對輸入的圖像進行特征提取,將卷積神經網絡的輸出作為特征提取的結果;所述卷積神經網絡從輸入到輸出依次由:卷積層1、批量標準化層1、池化層1、卷積層2、批量標準化層2、池化層2、卷積層3、批量標準化層3、卷積層4、批量標準化層4、池化層4、卷積層5、批量標準化層5、卷積層6、批量標準化層6、池化層6、卷積層7、批量標準化層7組成;其中卷積層1~7的參數按照卷積核大小、通道數目、滑動間隔和擴充大小的順序依次為:(3,64,1,1),(3,128,1,1),(3,256,1,1),(3,256,1,1),(3,512,1,1),(3,512,1,1)和(2,512,1,0);批量標準化層1~7的目的是調整中間結果數據的分布,沒有參數;池化層1、2、4、6的參數按照池化窗口、左右滑動間隔,上下滑動間隔,左右擴充大小和上下擴充大小的順序依次為:(2*2,2,2,0,0),(2*2,2,2,0,0),(1*2,1,2,0,0)和(1*2,1,2,0,0);圖像在輸入到卷積神經網絡之前需要將圖像的分辨率調整為80×32,所述卷積神經網絡的輸出為大小為512×19的二維特征矩陣;將所述二維特征矩陣序列化后得到包含19個大小為1×512向量的特征序列,表示為:S={s1,s2,...sL},其中si∈R512,i=1,2,…,L;L=19,表示序列的長度;
步驟(二),采用注意力機制對包含19個大小為1×512向量的特征序列S進行特征聚焦:按照從左到右的空間順序依次識別圖像中的字符,設定訓練數據集中的字符長度最大為24,對特征序列S進行24次特征聚焦,將每一次的特征聚焦當作一個時刻;輸出特征向量的集合Vf,Vf={V1,V2,...VT},T=24;其中特征向量Vt表示第t次特征聚焦的結果:且代表第t次特征聚焦時注意力機制的系數,其中其中ht-1表示第三步驟中第t-1時刻長短時記憶單元的隱變量;WT,Wa,Ua和ba是注意力模型的參數,由基于隨機梯度下降的后向傳播算法進行訓練;
步驟(三),利用深度神經網絡中的長短時記憶網絡對聚焦后的特征向量進行識別:長短時記憶網絡含有24個單元,第t時刻的長短時記憶單元的輸入就是第t次特征聚焦后的特征向量Vt,輸出就是識別出的字符類別Jt;每個時刻選取概率最大的字符類別作為此時刻長短時記憶單元的輸出,選取方式為:其中zi=softmax(ht);所述ht表示第t時刻長短時記憶單元的隱變量;識別結束后整個網絡的輸出就是24個字符的組合,取結束符之前的字符串作為最終的識別結果;其中所述Jt有37個類別,包括:26個英文字母,0~9共10個數字,結束符“-”;所述結束符表示字符串識別結束。
2.如權利要求1所述的方法,其特征在于,對該方法中的參數進行訓練的方法為:設X={Ii,Li}為訓練數據集,Ii表示第i個圖像,Li為第i個圖像中字符串的真實值;訓練過程中的目標函數為:其中W表示卷積神經網絡,注意力機制和長短時記憶網絡的參數,W*表示所述參數的最優數值,Li,t表示第i個圖像對應的標簽中的第t個字符,p(Jt=Li,t|Ii,J1,…Jt-1)為在已知前t-1個字符取值時,第t個字符的取值標簽Li,t的概率;利用基于隨機梯度下降的后向傳播算法對網絡參數W進行訓練。
3.如權利要求1所述的方法,其特征在于,所述輸入的圖像為灰度圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科學技術大學,未經中國人民解放軍國防科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710592890.3/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





