[發明專利]基于深度學習的圖像文字識別方法、系統及介質在審
| 申請號: | 202010845724.1 | 申請日: | 2020-08-20 |
| 公開(公告)號: | CN112016547A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 高銘;葉君峰;吉振領;連云娟 | 申請(專利權)人: | 上海天壤智能科技有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/34;G06K9/46;G06K9/62;G06N3/04 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 李佳俊;郭國中 |
| 地址: | 201100 上海市閔行*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 圖像 文字 識別 方法 系統 介質 | ||
1.一種基于深度學習的圖像文字識別方法,其特征在于,包括:
步驟1:對圖像進行頻域分析、邊緣檢測、亮度和色彩飽和度分析,判斷圖像的來源類別;
步驟2:根據圖像的來源類別,通過卷積神經網絡提取圖像目標區域并對目標區域進行分類,獲得一個或多個目標區域以及分類;
步驟3:通過卷積神經網絡構建四分類分類器對目標區域的圖像進行朝向矯正,將圖像旋轉至正向朝向,并通過線段檢測和頻域信號分析法計算圖像的傾斜角度,實行角度矯正后,進行文字檢測;
步驟4:使用目標檢測算法,用深度卷積網絡計算圖像的特征圖,對文本行進行目標分割,將每一行文本送入到訓練好的識別模型中進行文字識別;
步驟5:根據CRNN算法將深度卷積網絡和雙向循環網絡相結合,進行端到端的網絡訓練;
步驟6:通過訓練得到圖片中文字所在的位置及模型識別內容,并進行錨點定位、圖片縮放和擺正、模板匹配、干擾文本過濾和識別文本二次糾正,提取文字信息。
2.根據權利要求1所述的基于深度學習的圖像文字識別方法,其特征在于,所述步驟4中目標檢測算法的骨架網絡采用殘差網絡的FPN版本,在多尺寸的特征圖上進行RPN目標提取,由RPN網絡輸出目標區域,再經分類定位的多任務損失判斷目標的坐標和類別。
3.根據權利要求1所述的基于深度學習的圖像文字識別方法,其特征在于,所述步驟5中CRNN算法,以CNN特征作為輸入,通過注意力模型對RNN的狀態和上一狀態的注意力權重計算出新狀態的注意力的權重,再將CNN特征和權重輸入RNN,通過編碼和解碼得到訓練結果。
4.根據權利要求1所述的基于深度學習的圖像文字識別方法,其特征在于,所述步驟6中的錨點定位,通過一張正擺放的圖片用于制作模板,把所在位置和內容固定的文本作為錨點,和當前圖片中識別出來的文本進行比對,根據文本的相似度、文本規則完成錨點的定位。
5.根據權利要求4所述的基于深度學習的圖像文字識別方法,其特征在于,所述步驟6中的圖片縮放和擺正,在模板匹配的基礎上根據圖片中匹配的錨點與模板圖上的錨點計算透視矩陣,對圖片進行縮放和投影變換,完成圖片的擺正。
6.根據權利要求5所述的基于深度學習的圖像文字識別方法,其特征在于,所述步驟6中的模板匹配,使用擺正后圖片新的透視投影矩陣與模板四頂點矩陣距離來計算匹配程度,當匹配程度較低時,進行再次擺正。
7.根據權利要求6所述的基于深度學習的圖像文字識別方法,其特征在于,所述步驟6中的干擾文本過濾,根據字段所標注的待識別矩形框與匹配到的矩形框交并比來判斷,匹配到的矩形框內文字是否屬于某個字段,同時對匹配到文字根據字段類型進行過濾。
8.根據權利要求7所述的基于深度學習的圖像文字識別方法,其特征在于,所述步驟6中的識別文本二次糾正,當文本過濾完成后,所保留識別結果置信度較低時,對該行文本使用識別模型進行二次識別,識別過程中引入上下文信息,并通過文本庫對識別結果進行糾正,完成最終結構化信息的提取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海天壤智能科技有限公司,未經上海天壤智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010845724.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種茶葉渣貓砂及其制備方法
- 下一篇:一種智能家居領域的防夾手閉合門機構
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





