[發明專利]基于全局特征指導的二維注意力機制文本識別方法在審
| 申請號: | 202011239148.2 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112149644A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 王鵬;楊路 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 劉新瓊 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 全局 特征 指導 二維 注意力 機制 文本 識別 方法 | ||
本發明涉及一種基于全局特征指導的二維注意力機制的文本識別方法,屬于圖像識別中的文本識別領域。首先使用一個卷積神經網絡對輸入圖片提取特征圖,將這個特征圖經過兩路分支進行處理,一路使用1x1的卷積對特征圖進行維度變換,另一路使用一個小的網絡從特征圖中提取出全局的特征表示。這兩路提取出來特征都用作后續解碼器的輸入。在解碼時先輸入開始符號,然后將開始符號的特征加上位置編碼的特征,然后再和全局特征拼接在一起。解碼器根據這個拼接特征,通過二維注意力機制在特征圖上去尋找需要識別的第一個文字并識別出答案。有了第一個文字,再把第一個文字和全局特征拼接在一起,去識別第二個文字。一直到解碼器識別出文字結束符時停止識別。
技術領域
本發明屬圖像識別中的文本識別領域,具體為通過直接在卷積神經網絡提取的特征上,使用全局特征指導的二維注意力機制對每個字符進行提取特征并進行識別的文本識別方法及系統。
背景技術
文本識別是圖像處理中非常重要的一個技術。常見的有兩種應用場景,一種是對掃描文檔進行圖像處理,一種是對自然場景圖片中的文字進行識別。對于掃描文檔圖像而言,文字信息圖像中最重要的信息,這些信息如果以圖像的格式進行存儲是非常浪費存儲空間的,如果能夠通過文本識別方法將文檔圖像中的問題識別出來,以文本的形式存儲起來,那么將非常的有意義,而且識別出來的文本還能夠方便后續的算法進行更進一步的分析處理。自然場景的圖片中經常會有文字的出現,而一旦圖像中有文字時,文字往往能夠提供豐富的信息。比如一個店的招牌上的文字,如果讀懂招牌上的文字大概就能猜出這家店是干什么的;一個瓶子上面的文字,一看文字就大概知道這瓶子里裝的是什么東西。因此,圖像識別中的文本識別是非常重要的一種技術,如何又快又準的進行圖像文本識別是學術界和工業界都非常關注的。
早期的文本識別采用的是自下而上的方式,它首先檢測單個字符并通過動態規劃將其整合成一個單詞,或者采用自頂向下的方式,它將單詞作為一個整體來識別。考慮到文本通常以字符序列的形式出現,也有些方法將其建模為序列識別問題。RNN通常被用來進行序列特征學習。文本識別的方法大多是由上述框架驅動的,但在處理不規則文本的變形或曲率時,還需要做一些改進。有方法通過空間變換網絡將不規則文本圖像糾正為規則文本圖像,然后用一維的注意力順序模型識別他們。也有通過一個校正網絡迭代地消除透視畸變和文本曲線,從而得到文本識別的前向平行視圖。
現有方法利用RNN從四個方向捕捉不規則文本圖像的深層特征,然后通過一維基于注意力的解碼器組合生成字符序列。并設計一個濾波門,將冗余特征融合,去除不相關特征。最新的方法中有人認為用一維序列來表示不規則文本圖像是不合適的,并提出了一種字符注意全卷積網絡,在二維視角下準確地檢測每個字符。然后用一種單獨的基于切分的方法來實現,但是此模型不能進行端到端的訓練。
發明內容
要解決的技術問題
為了避免現有技術的不足之處,本發明提出一種基于全局特征指導的二維注意力機制的文本識別方法。
技術方案
一種基于全局特征指導的二維注意力機制文本識別方法,其特征在于步驟如下:
步驟1:將輸入圖片尺寸調整到48×160×3大??;
步驟2:將調整后的圖片輸入到定制版的ResNet34網絡,去掉ResNet34網絡最后的兩層即平均池化層和全連接層,得到網絡輸出的原始特征圖,原始特征圖大小為6×20×512;所述的定制版的ResNet34是針對文字識別任務特殊改造的:將第一層卷積從7x7的卷積核修改為3x3的卷積核,將所有的2x2的最大池化層都修改為2x1的最大池化層;
步驟3:對步驟2得到的原始特征圖進行1x1卷積,進行通道的改變,特征圖大小變為6×20×1024;此特征圖代表了整張圖片的文字內容信息,所有的文字的信息分布在這個特征圖的不同位置;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011239148.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種頁面導航方法、裝置和智能設備
- 下一篇:一種數學教學用專業課程展示裝置





