[發明專利]基于自注意力機制的文本識別方法有效
| 申請號: | 202110268438.8 | 申請日: | 2021-03-12 |
| 公開(公告)號: | CN113065550B | 公開(公告)日: | 2022-11-11 |
| 發明(設計)人: | 劉義江;陳蕾;侯棟梁;池建昆;范輝;閻鵬飛;魏明磊;李云超;姜琳琳;辛銳;陳曦;楊青;沈靜文;吳彥巧;姜敬;檀小亞;師孜晗 | 申請(專利權)人: | 國網河北省電力有限公司;國網河北省電力有限公司雄安新區供電公司 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V30/146;G06V10/82;G06N3/04 |
| 代理公司: | 石家莊新世紀專利商標事務所有限公司 13100 | 代理人: | 董金國;黃敬霞 |
| 地址: | 050022 *** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 機制 文本 識別 方法 | ||
本發明屬于于場景文本識別領域,涉及一種基于自注意力機制的文本識別方法,由處理器執行一卷積神經網絡算法指令實現,其包括:接收包含文本內容的場景圖片;使用卷積神經網絡其第一卷積模塊提取場景圖片的第一特征圖M,其自注意力機制模塊將第一特征圖M編碼為第二特征圖Matt,其第二卷積模塊提取第二特征圖Matt通道方向的一維特征向量F;使用卷積神經網絡其第三卷積模塊根據第二特征圖Matt和一維特征向量F獲得場景圖片的文本內容識別結果;第三卷積模塊包含以一維特征向量F為初始隱含層的循環卷積模塊以及用于對第二特征圖Matt解碼并設于循環卷積模塊中循環單元輸出的二維注意力機制模塊。該方法能夠對彎曲、傾斜等不規則文本實現較好的識別。
技術領域
本發明屬于場景文本識別領域,具體涉及一種采用自注意力機制編解碼結構的文本識別方法。
背景技術
視覺意義的文本作為文字的物理載體,能用來保存和傳遞信息。文本識別技術是計算機視覺領域的一個重要挑戰,它的任務是在自然圖像中自動檢測和識別文本信息。在文本檢測和識別技術的幫助下,可以解碼出視覺影像中的重要語義信息。由于場景文本識別具有重大的應用價值,近年來在工業界和學術界受到了越來越多的關注。本領域技術人員已經能針對背景簡單的水平文本設計識別系統并獲得較好的識別效果,而在真實場景中,由于場景中光照、遮擋以拍照設備、拍照角度等因素以及文本本身彎曲、傾斜、藝術字等實際因素影響,場景文本識別,特別是不規則場景文本識別存在技術困難。
針對真實場景視覺影像中不規則文本的識別問題,現有技術的場景文本識別技術在解碼階段采用基于注意力機制的解碼器,從而能夠自動關注到圖片中的字符區域。這些方法能夠較好的處理不規則文本識別的問題,但是由于場景圖片過于嘈雜,經常會出現“注意力漂移”等問題,從而降低了文本識別的準確率。
發明內容
本發明目的在于提供一種基于自注意力機制的場景文本識別方法,該方法能夠對檢測階段提供的文本目標實現較好的識別,特別是處理彎曲、傾斜等不規則文本的識別問題。
本發明提供的技術方案是基于自注意力機制的文本識別方法,由處理器執行一卷積神經網絡的算法指令實現,該方法包括:接收包含文本內容的場景圖片;使用所述卷積神經網絡其第一卷積模塊提取所述場景圖片的第一特征圖M,其自注意力機制模塊將所述第一特征圖M編碼為第二特征圖Matt,其第二卷積模塊提取所述第二特征圖Matt通道方向的一維特征向量F;使用所述卷積神經網絡其第三卷積模塊根據所述第二特征圖Matt和一維特征向量F獲得所述場景圖片的文本內容識別結果;所述第三卷積模塊包含以一維特征向量F為初始隱含層的循環卷積模塊以及用于對所述第二特征圖Matt解碼并設于所述循環卷積模塊中循環單元輸出的二維注意力機制模塊。
一個改進在于,所述第一卷積模塊的主干部分采用ResNet的卷積結構。進一步的改進在于,所述第一卷積模塊的主干部分采用ResNet34的卷積結構。ResNet34采用了一種深度適中較為均衡的網絡結構,其配合本發明構思中其他網絡結構的配置,被驗證可以獲得更好的成本控制。再進一步的改進在于,所述ResNet34最后一層卷積步長被設為1,以便獲得尺寸更大的第一特征圖。
另一個改進在于,所述第二卷積模塊包含多層Bottleneck結構。
另一個改進在于,所述第三卷積模塊的循環卷積網絡為LSTM網絡。其進一步的改進在于,所述第三卷積模塊的二維注意力機制模塊;所述二維注意力機制模塊設置于LSTM每個循環單元的輸出中,用于根據所述第二特征圖Matt和上一步獲得的隱層狀態對各循環單元輸出實施解碼。優選的,所述第三卷積模塊中LSTM的初始隱層狀態被設置為所述一維特征向量F。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網河北省電力有限公司;國網河北省電力有限公司雄安新區供電公司,未經國網河北省電力有限公司;國網河北省電力有限公司雄安新區供電公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110268438.8/2.html,轉載請聲明來源鉆瓜專利網。





