[發明專利]一種基于Transformer模型自然場景文字識別方法在審
| 申請號: | 202011098711.9 | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112149619A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 徐亦飛;張美姿;王愛臣;王正洋;王超勇;余樂;尉萍萍;肖志峰 | 申請(專利權)人: | 南昌慧亦臣科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20;G06K9/34;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州專理知識產權代理事務所(普通合伙) 44493 | 代理人: | 張鳳 |
| 地址: | 330000 江西省南昌市紅谷灘新區*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 transformer 模型 自然 場景 文字 識別 方法 | ||
1.一種基于Transformer模型自然場景文字識別方法,其特征在于,包括:
步驟S100,對輸入的自然場景文字圖片進行預處理;
步驟S200,將經預處理的自然場景文字圖片傳入特征提取網絡,得到包含圖片文字信息的特征圖,其中,特征提取網絡包括VGG網絡與殘差注意力模塊;
步驟S300,將得到的特征圖進行切片,得到特征序列;
步驟S400,將特征序列傳入Transformer模型,經過Transformer模型的編碼和解碼處理,得到輸出序列,其中,Transformer模型的自注意力機制中加入高斯偏置GaussianBias;
步驟S500,將輸出序列中的向量轉換為對應的字符,輸出自然場景文字圖片中的文本內容。
2.根據權利要求1所述的基于Transformer模型自然場景文字識別方法,其特征在于,步驟S100,對輸入的自然場景文字圖片進行預處理,包括,
步驟S110,將自然場景文字圖片進行等比例縮放,使自然場景文字圖片的高度固定為預設像素;
步驟S120,對經縮放的自然場景文字圖片進行末尾位置補齊,使自然場景文字圖片圖像的寬度為4的整數倍。
3.根據權利要求1所述的基于Transformer模型自然場景文字識別方法,其特征在于,步驟S200、步驟S300包括,
步驟S210,將經預處理的自然場景文字圖片傳入特征提取網絡,特征提取網絡中,殘差注意力模塊位于VGG網絡的第二層VGG Block2和第四層VGG Block4后面;
步驟S220,將VGG網絡最后兩個池化層窗口的大小由2×2改為1×2,使自然場景文字圖片的高度減半四次,寬度減半兩次;將最后的卷積層改為卷積核大小為2×2、元素內邊距padding為0的卷積,使得特征圖放縮為原來的1/2,即整個特征提取網絡將圖像的高度縮小為原來的1/32,寬度縮小為原來的1/4;
步驟S230,殘差注意力模塊包含特征分支和注意力分支,特征分支包含前饋神經網絡;
注意力分支采用一個自底向上down-sampling unit和自頂向下Up-sampling unit的結構組合,自底向上結構down-sampling unit包括兩個下采樣單元,自頂向下結構Up-sampling unit包括兩個上采樣單元;
上步驟得到的特征圖依次經過上采樣單元、兩個1×1卷積層以及一個Sigmoidfunction的處理,得到注意力權重圖;
將注意力權重圖和特征分支中的特征圖進行點積運算,生成經過注意力機制的特征圖。
將經過注意力機制的特征圖和原特征圖相加,得到包含圖片文字信息的特征圖;
步驟S300,將上步驟得到的最終的特征圖進行切片,得到W/4個向量,每個向量的維度為512×1。
4.根據權利要求1所述的基于Transformer模型自然場景文字識別方法,其特征在于,步驟S400包括,
步驟S410,特征序列經過Transformer模塊的編碼器,編碼器包括多頭注意力Multi-Head Attention模塊和前饋神經網絡,其中,頭注意力Multi-Head Attention模塊中加入高斯偏置,得到輸出序列,輸出序列包含著每個序列對其他序列的注意力信息;
步驟S420,將上步驟得到的輸出序列作為Transformer模塊的解碼器部分輸入,解碼器的另一部分輸入為當前字符經過詞嵌入得到的向量,所有的輸入經過解碼器生成一個向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南昌慧亦臣科技有限公司,未經南昌慧亦臣科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011098711.9/1.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





