[發明專利]一種文字識別方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010172679.8 | 申請日: | 2020-03-12 |
| 公開(公告)號: | CN111428593A | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 宋祺;姜仟藝;劉曦;張睿 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 北京市隆安律師事務所 11323 | 代理人: | 權鮮枝 |
| 地址: | 100190 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文字 識別 方法 裝置 電子設備 存儲 介質 | ||
本申請公開了一種文字識別方法、裝置、電子設備及存儲介質,該方法包括:對目標圖像進行紋理特征編碼,生成第一特征序列;對第一特征序列進行解碼,得到第一識別結果;基于遞歸神經網絡對第一特征序列進行上下文互信息編碼,生成第二特征序列;對第二特征序列進行解碼,得到第二識別結果;根據第一識別結果和第二識別結果聯合確定文字識別結果。本申請的有益效果在于,將文字本身特征與上下文互信息相結合,顯著提高文字識別的準確率,且計算量小、計算速度快、可用性強。
技術領域
本申請涉及數據處理技術領域,具體涉及一種文字識別方法、裝置、電子設備及存儲介質。
背景技術
文字識別作為計算機視覺中的一種常用技術,被廣泛應用于文檔分析、證照識別、街景識別、資質審核、自動錄入等場景中,為人們的日常生活和工作提供了很大的便利。但是現有技術依然存在著很多不足之處,如某些文字識別方法僅考慮到了字符本身的特征,忽略了字符之間的上下文語義特征,在某些字符由于光照、污漬等產生遮擋難以識別時,無法基于其它字符內容進行上下文聯合推斷識別。而某些文字識別方法又過于依賴上下文信息,導致極其容易混淆相似文字,例如,如果數據中“麥當勞”出現的次數遠多于“麥肯基”,那么所有的“麥肯基”都可能被識別為“麥當勞”。
發明內容
鑒于上述問題,提出了本申請以便提供一種克服上述問題或者至少部分地解決上述問題的一種文字識別方法、裝置、電子設備及存儲介質。
依據本申請的一個方面,提供了一種文字識別方法,該方法包括:
對目標圖像進行紋理特征編碼,生成第一特征序列;
對第一特征序列進行解碼,得到第一識別結果;
基于遞歸神經網絡對第一特征序列進行上下文互信息編碼,生成第二特征序列;
對第二特征序列進行解碼,得到第二識別結果;
根據第一識別結果和第二識別結果聯合確定文字識別結果。
可選的,在上述方法中,對用于文字識別的圖像進行紋理特征編碼,生成第一特征序列包括:
根據卷積神經網絡對目標圖像進行特征提取,得到目標圖像的圖像特征;
對圖像特征進行注意力處理,確定目標圖像中文字前景的掩模;
將掩模與圖像特征進行融合,得到第一特征序列。
可選的,在上述方法中,卷積神經網絡中池化層的寬度方向步長大于高度方向步長。
可選的,在上述方法中,對圖像特征進行注意力處理包括:
基于自注意力模塊對圖像特征進行注意力處理,自注意力模塊包括如下的至少一種:卷積塊注意模塊、瓶頸注意模塊、擠壓和激發模塊。
可選的,在上述方法中,對第一特征序列進行解碼,得到第一識別結果包括:
對第一特征序列,利用連接時序分類算法進行解碼,得到各字符的類別及類別的對應概率。
可選的,在上述方法中,對第二圖像特征序列進行解碼,得到第二識別結果包括:
對第二特征序列,利用基于注意力的序列到序列識別算法進行解碼,得到各字符的類別及類別的對應概率。
可選的,在上述方法中,根據第一識別結果和第二識別結果聯合確定文字識別結果包括:
對第一識別結果和第二識別結果進行概率融合,得到文字識別結果。
依據本申請的另一方面,提供了一種文字識別裝置,該裝置包括:
第一編碼單元,用于對目標圖像進行紋理特征編碼,生成第一特征序列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010172679.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種盾構隧道服役性能健康評價方法
- 下一篇:輪轂圓度自動檢測分料裝置





