[發明專利]一種基于Transformer模型自然場景文字識別方法在審
| 申請號: | 202011098711.9 | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112149619A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 徐亦飛;張美姿;王愛臣;王正洋;王超勇;余樂;尉萍萍;肖志峰 | 申請(專利權)人: | 南昌慧亦臣科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20;G06K9/34;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州專理知識產權代理事務所(普通合伙) 44493 | 代理人: | 張鳳 |
| 地址: | 330000 江西省南昌市紅谷灘新區*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 transformer 模型 自然 場景 文字 識別 方法 | ||
本發明公開了一種基于Transformer模型自然場景文字識別方法,在特征提取網絡中內加入殘差注意力模塊,使得特征提取網絡可以對特征進行有選擇的關注,從而增強文本區域信息,抑制干擾信息,從而緩解自然場景中的圖像中的陰影、背景紋理以及噪聲等干擾因素對識別結果的影響。本發明采用完全由注意力機制組成的Transformer模型替代傳統的具有循環結構的RNN網絡,本發明Transformer模型的具有更好的并行計算的能力,解決了原方法中訓練耗時以及難以訓練的問題。另外,本發明將高斯偏置加入到Transformer模型的自注意力機制中,解決Transformer模型中的自注意力機制弱于捕獲序列中的局部依賴的問題,使得Transformer模型更適用于文字識別任務。
技術領域
本發明涉及圖像處理技術領域,尤其涉及一種基于Transformer模型自然場景文字識別方法。
背景技術
文字檢測是計算機視覺領域研究的熱點,其旨在將自然場景圖像中的文字的位置檢測出來,以供下一步進行識別,從而將圖像轉換為可供計算機處理的真實的文字信息。自然場景圖像中的文字通常在字體、組合方式和文字大小等方面存在著較大的差異,且自然場景圖像還在光照強度、分辨率、圖像噪聲以及拍攝角度等方面存在很大的不確定性,這些復雜的因素大大增加了自然場景下的文字檢測的難度。
由Shi B,Bai X,Yao C.An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition提出的CRNN算法是目前常用的一種文字識別算法,該算法憑借其優異的性能和識別準確率,得到了廣泛的應用。CRNN算法使用一個CNN網絡來提取圖片中的特征,然后將特征切片成特征序列,輸入到一個雙向LSTM網絡中進行識別,最后采用CTC算法對識別結果進行對齊,得到最終的識別結果。
然而,由于CRNN算法采用了RNN網絡作為序列的學習模型,而RNN網絡固有的順序屬性阻礙了訓練樣本間的并行化,對于長序列,內存限制將阻礙對訓練樣本的批量處理。同時,RNN網絡在訓練時耗時太長,并且容易產生梯度爆炸或梯度消失,難以訓練。
發明內容
本發明提供了一種基于Transformer模型自然場景文字識別方法,以解決現有的基于RNN網絡的自然場景文字識別算法訓練時間過長以及難以訓練的問題。
本發明提供了一種基于Transformer模型自然場景文字識別方法,包括:
步驟S100,對輸入的自然場景文字圖片進行預處理;
步驟S200,將經預處理的自然場景文字圖片傳入特征提取網絡,得到包含圖片文字信息的特征圖,其中,特征提取網絡包括VGG網絡與殘差注意力模塊;
步驟S300,將得到的特征圖進行切片,得到特征序列;
步驟S400,將特征序列傳入Transformer模型,經過Transformer模型的編碼和解碼處理,得到輸出序列,其中,Transformer模型的自注意力機制中加入高斯偏置GaussianBias;
步驟S500,將輸出序列中的向量轉換為對應的字符,輸出自然場景文字圖片中的文本內容。
可選地,步驟S100,對輸入的自然場景文字圖片進行預處理,包括,
步驟S110,將自然場景文字圖片進行等比例縮放,使自然場景文字圖片的高度固定為預設像素;
步驟S120,對經縮放的自然場景文字圖片進行末尾位置補齊,使自然場景文字圖片圖像的寬度為4的整數倍。
可選地,步驟S200、步驟S300包括,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南昌慧亦臣科技有限公司,未經南昌慧亦臣科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011098711.9/2.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





