[發明專利]一種基于全局和局部注意力機制的文本識別方法有效
| 申請號: | 202111029998.4 | 申請日: | 2021-09-03 |
| 公開(公告)號: | CN113705713B | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 彭德智;金連文;謝燦宇;李鴻亮 | 申請(專利權)人: | 華南理工大學;華南理工大學珠海現代產業創新研究院 |
| 主分類號: | G06V30/19 | 分類號: | G06V30/19;G06V30/18;G06V30/32;G06N3/0464;G06V10/82;G06N3/09 |
| 代理公司: | 北京東方盛凡知識產權代理有限公司 11562 | 代理人: | 李娜 |
| 地址: | 510641 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 全局 局部 注意力 機制 文本 識別 方法 | ||
1.一種基于全局和局部注意力機制的文本識別方法,其特征在于,包括以下步驟:
S1、將合成文本行和公開文本行作為訓練樣本;將真實場景下采集的文本行作為測試樣本;
S2、對所述訓練樣本和所述測試樣本進行預處理;
S3、基于預處理后的訓練樣本,確定訓練標簽;
S4、采用卷積層和自注意力層結構構建識別網絡;
S5、將預處理后的訓練樣本輸入到所述識別網絡中進行訓練,結合所述訓練標簽,并采用CTC損失進行網絡優化,得到訓練好的識別網絡;
S6、將預處理后的測試樣本輸入到所述訓練好的識別網絡中,輸出文本識別結果;
其中,所述S4、網絡設計:采用卷積層和自注意力層等結構構建識別網絡,以交替地提取輸入文本行的全局和局部特征,具體為:
S4.1、構建全局和局部注意力模塊;
首先,對于輸入特征f1,通過卷積層提取局部特征f2:
f2=Conv(f1)
其中,Conv表示卷積操作;
接著,對于局部特征f2,通過多頭自注意力機制建模全局特征f3,其表達式為:
f3=MultiHead(Q,K,V)=Concat(head1,head2,…,headh)Wo
headi=Attention(QWiQ,KWiK,VWiV)
式中,q,k,V均等于f2;WiQ,其中dmodel為f2的維度且dk=dv=dmodel/h;
然后,對于特征f3,進行如下操作:
f4=LayerNorm(f3+f2)
f5=LayerNorm(FFN(f4)+f4)
其中,LayerNorm為層歸一化操作(Layer?Normalization),FFN為兩層全連接層組成的網絡;
最后,對于特征f5,再次通過卷積提取局部特征:
f6=Conv(f5)
上述操作共同組成一個全局和局部注意力模塊;
S4.2、構建識別網絡;識別網絡由多個全局和局部注意力模塊和分類器組成;
首先,對于輸入圖片I或從聯機筆記中提取的特征F,經由多個串聯的全局和局部注意力模塊提取出一維特征其中,l為特征的長度,dcls為特征的維度;
接著,分類器基于特征fcls,輸出分類概率其中ncls為字符類別數,多出的一類為空類別:
pcls=Softmax(fclsWcls+bcls)
其中,
最后,通過分類概率pcls得到長度為l的字符序列,去除連續重復字符和空類別字符后,得到最終的識別結果。
2.根據權利要求1所述的基于全局和局部注意力機制的文本識別方法,其特征在于,所述S2包括:
S2.1、在保持寬高比固定的情況下,將所述訓練樣本和所述測試樣本中的脫機文本圖片高度歸一化為128個像素,得到預處理后的圖片;
S2.2、將所述訓練樣本和所述測試樣本中的聯機文本的聯機筆跡旋轉為水平狀態,再對水平狀態的聯機筆跡進行特征提取,得到預處理后的筆跡特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學;華南理工大學珠海現代產業創新研究院,未經華南理工大學;華南理工大學珠海現代產業創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111029998.4/1.html,轉載請聲明來源鉆瓜專利網。





