[發明專利]基于序列變換糾正及注意力機制的自然場景文本識別方法有效
| 申請號: | 202010227200.6 | 申請日: | 2020-03-27 |
| 公開(公告)號: | CN111428727B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 林慶祥;金連文;羅燦杰;賴松軒 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V30/16;G06V30/19;G06V10/82;G06N3/045;G06N3/0442;G06N3/0464;G06N3/047;G06N3/048 |
| 代理公司: | 北京東方盛凡知識產權代理有限公司 11562 | 代理人: | 張雪 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 序列 變換 糾正 注意力 機制 自然 場景 文本 識別 方法 | ||
1.一種基于序列變換糾正及注意力機制的自然場景文本識別方法,其特征在于,包括如下步驟:
數據獲?。韩@取訓練集和測試集樣本;
數據處理:對訓練集和測試集圖片進行縮放處理;
標簽制作:對訓練集圖片進行加標簽處理;
訓練網絡:構建識別網絡,并將訓練數據及處理好的標簽輸入預先設計好的識別網絡,完成識別網絡的訓練;
所述識別網絡包括序列變換糾正器、基于注意力機制的文本識別器;所述序列變換糾正器包括若干個卷積層、非線性層和池化層;所述序列變換糾正器還包括分解層、由若干個全連接層組成的定位網絡;所述基于注意力機制的文本識別器包括特征編碼網絡和基于注意力機制的解碼器;
測試網絡:輸入測試數據到已訓練完成的識別網絡中,得到圖片中文本行的識別結果;
所述序列變換糾正器還包括縮放層、網格映射模塊,所述序列變換糾正器進行圖片糾正的方法包括:
通過縮放層、卷積層、非線性層和池化層得到待糾正圖片的特征圖;
通過分解層將特征圖在水平方向分解成互不相交的N個圖像塊,并將每個圖像塊的特征輸入到定位網絡,通過定位網絡預測每個圖像塊的變換參數;
將每個圖像塊的變換參數均輸入到網格映射模塊,得到一個平滑的采樣網格;
使用采樣網格在原始待糾正圖片上通過雙線性插值采樣得到糾正后的圖片;
所述特征編碼網絡以卷積神經網絡和長短時記憶網絡作為基本單元,用于將圖片數據轉換成具有上下文關聯信息的時間序列特征;
所述基于注意力機制的解碼器在解碼過程中引入長短時記憶網絡LSTM來逐步識別圖片中的每個字符,具體識別方法包括:
基于注意力機制的解碼器根據特征編碼網絡輸出的時間序列特征以及長短時記憶網絡上一個時間點的隱藏狀態,計算注意力權重矩陣;
對注意力權重矩陣做歸一化處理,得到注意力權重矩陣的概率分布;
根據注意力權重矩陣的概率分布對特征編碼網絡編碼得到的時間序列特征進行加權求和處理,得到當前時刻的關注特征;
根據當前時刻的關注特征,并結合上一時刻的字符預測概率分布更新長短時記憶網絡的隱藏狀態;
通過全連接層進行解碼,并將解碼結果送入softmax層進行概率歸一化,得到預測字符的概率分布;
選取概率分布中置信度最大的值所對應的字符作為當前解碼輸出字符,完成圖片中字符的識別。
2.根據權利要求1所述的基于序列變換糾正及注意力機制的自然場景文本識別方法,其特征在于,所述卷積層還能進行補邊,所述補邊的具體方法包括:在原始圖片或特征圖的上下左右均貼上一圈像素點,所述像素點的像素值為0。
3.根據權利要求1所述的基于序列變換糾正及注意力機制的自然場景文本識別方法,其特征在于,識別網絡訓練包括:
將訓練數據字符串中的每個字符在其對應時間點輸出的概率作為交叉熵,使用自適應梯度下降法最小化交叉熵損失。
4.根據權利要求1所述的基于序列變換糾正及注意力機制的自然場景文本識別方法,其特征在于,所述識別網絡中的權值參數通過隨機高斯分布初始方法進行初始化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010227200.6/1.html,轉載請聲明來源鉆瓜專利網。





