[發明專利]基于自注意力機制的文本識別方法有效
| 申請號: | 202110268438.8 | 申請日: | 2021-03-12 |
| 公開(公告)號: | CN113065550B | 公開(公告)日: | 2022-11-11 |
| 發明(設計)人: | 劉義江;陳蕾;侯棟梁;池建昆;范輝;閻鵬飛;魏明磊;李云超;姜琳琳;辛銳;陳曦;楊青;沈靜文;吳彥巧;姜敬;檀小亞;師孜晗 | 申請(專利權)人: | 國網河北省電力有限公司;國網河北省電力有限公司雄安新區供電公司 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V30/146;G06V10/82;G06N3/04 |
| 代理公司: | 石家莊新世紀專利商標事務所有限公司 13100 | 代理人: | 董金國;黃敬霞 |
| 地址: | 050022 *** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 機制 文本 識別 方法 | ||
1.一種基于自注意力機制的文本識別方法,由處理器執行一卷積神經網絡算法指令實現,其包括:
接收包含文本內容的場景圖片;使用所述卷積神經網絡其第一卷積模塊提取所述場景圖片的第一特征圖M,其自注意力機制模塊將所述第一特征圖M編碼為第二特征圖Matt,其第二卷積模塊提取所述第二特征圖Matt通道方向的一維特征向量F;使用所述卷積神經網絡其第三卷積模塊根據所述第二特征圖Matt和一維特征向量F獲得所述場景圖片的文本內容識別結果;所述第三卷積模塊包含以一維特征向量F為初始隱含層的循環卷積模塊以及用于對所述第二特征圖Matt解碼并設于所述循環卷積模塊中循環單元輸出的二維注意力機制模塊;
在所述第一卷積模塊的主干部分的每一個layer的最后一個block上添加所述自注意力機制模塊的注意力的監督信號;
所述自注意力機制模塊包含Non-LocalBlock,所述Non-LocalBlock調用的自注意力算法為整體卷積神經網絡的一個泛化且可直接嵌入到當前網絡的非局部操作算子,用于捕獲所述第一特征圖M中一維特征信號在時間、空間及時空中的長范圍依賴,并將該長范圍依賴編碼于所述第二特征圖Matt。
2.根據權利要求1所述的文本識別方法,其特征在于,
所述第一卷積模塊的主干部分采用ResNet的卷積結構。
3.根據權利要求2所述的文本識別方法,其特征在于,
所述第一卷積模塊的主干部分采用ResNet34的卷積結構。
4.根據權利要求3所述的文本識別方法,其特征在于,
所述ResNet34最后一層卷積步長被設為1。
5.根據權利要求1所述的文本識別方法,其特征在于,
所述第二卷積模塊包含多層Bottleneck結構。
6.根據權利要求1所述的文本識別方法,其特征在于,
所述第三卷積模塊的循環卷積網絡為LSTM網絡。
7.根據權利要求6所述的文本識別方法,其特征在于:
所述第三卷積模塊的二維注意力機制模塊;所述二維注意力機制模塊設置于LSTM每個循環單元的輸出中,用于根據所述第二特征圖Matt和上一步獲得的隱層狀態對各循環單元輸出實施解碼。
8.根據權利要求7所述的文本識別方法,其特征在于:
所述第三卷積模塊中LSTM的初始隱層狀態被設置為所述一維特征向量F。
9.根據權利要求1所述的文本識別方法,其特征在于:
對于所述卷積神經網絡,在對其進行訓練時,所述循環神經網絡的輸入為真實標簽經過線性變換得到的一個one-hot的向量;在對其進行測試時,由于并不知道真實標簽信息,所述卷積神經網絡配置為將上一個時刻循環神經網絡的輸出作為該時刻的輸入。
10.根據權利要求9所述的文本識別方法,其特征在于:
所述卷積神經網絡只有在訓練階段配置反向傳播。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網河北省電力有限公司;國網河北省電力有限公司雄安新區供電公司,未經國網河北省電力有限公司;國網河北省電力有限公司雄安新區供電公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110268438.8/1.html,轉載請聲明來源鉆瓜專利網。





