[發明專利]基于深度學習的圖像文字識別方法、系統及介質在審
| 申請號: | 202010845724.1 | 申請日: | 2020-08-20 |
| 公開(公告)號: | CN112016547A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 高銘;葉君峰;吉振領;連云娟 | 申請(專利權)人: | 上海天壤智能科技有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/34;G06K9/46;G06K9/62;G06N3/04 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 李佳俊;郭國中 |
| 地址: | 201100 上海市閔行*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 圖像 文字 識別 方法 系統 介質 | ||
本發明提供了一種基于深度學習的圖像文字識別方法、系統及介質,包括:判斷圖像的來源類別;通過卷積神經網絡提取圖像目標區域并對目標區域進行分類;對目標區域的圖像進行朝向矯正,將圖像旋轉至正向朝向,并通過線段檢測和頻域信號分析法計算圖像的傾斜角度;使用目標檢測算法,用深度卷積網絡計算圖像的特征圖,對文本行進行目標分割進行文字識別;根據CRNN算法將深度卷積網絡和雙向循環網絡相結合,進行端到端的網絡訓練;通過訓練得到圖片中文字所在的位置及模型識別內容,提取文字信息。本發明通過采用計算機視覺及文字識別技術,解決了金融領域智能審核流程內票據卡證、表格文檔數據的識別問題。
技術領域
本發明涉及深度學習及圖像識別技術領域,具體地,涉及一種基于深度學習的圖像文字識別方法、系統及介質。
背景技術
隨著智能手機和移動設備的普及,圖片作為信息傳播的載體在越來越多的場景中被使用。原有業務流程內手動對證照票據關鍵信息進行提取往往因為字段冗長而效率不高,因此隨之而來的也有越來越多的圖片文字識別的需求。通過OCR技術完成對票據、表格內關鍵信息的提取,成為一種提升信息錄入效率手段。
傳統OCR處理流程包括文本檢測、單字符分割、單字符識別、后處理等過程,比較有代表性的為谷歌公司提出的PhotoOCR算法,包含文字區域檢測、文本行歸并、過分割、基于Beam Search的分割區域組合、基于HOG特征和全鏈接神經網絡的單字符分類等內容,但該方法需要將OCR系統割裂成過多環節,需要在每個環節上引入過多的人工干預,需要根據場景設定方法集成,難以做到端對端的訓練及部署,使用成本過高。
并且在識別服務生產流程中,原始系統間割裂導致數據采集流程長時間成本高,上下游信息傳遞效率差導致技術應用緩慢。
專利文獻CN110532855A(申請號:201910630252.5)公開了一種基于深度學習的自然場景證件圖像文字識別方法,實現的步驟為:(1)構建圖像特征提取模塊;(2)構建文字前景預測模塊;(3)構建文字區域定位模塊;(4)組成文字定位網絡;(5)構建字符特征提取模塊;(6)組成文字識別網絡;(7)構建文字定位數據集;(8)構建文字識別數據集;(9)訓練文字定位網絡;(10)訓練文字識別網絡;(11)識別證件圖像中的文字。
發明內容
針對現有技術中的缺陷,本發明的目的是提供一種基于深度學習的圖像文字識別方法、系統及介質。
根據本發明提供的基于深度學習的圖像文字識別方法,包括:
步驟1:對圖像進行頻域分析、邊緣檢測、亮度和色彩飽和度分析,判斷圖像的來源類別;
步驟2:根據圖像的來源類別,通過卷積神經網絡提取圖像目標區域并對目標區域進行分類,獲得一個或多個目標區域以及分類;
步驟3:通過卷積神經網絡構建四分類分類器對目標區域的圖像進行朝向矯正,將圖像旋轉至正向朝向,并通過線段檢測和頻域信號分析法計算圖像的傾斜角度,實行角度矯正后,進行文字檢測;
步驟4:使用目標檢測算法,用深度卷積網絡計算圖像的特征圖,對文本行進行目標分割,將每一行文本送入到訓練好的識別模型中進行文字識別;
步驟5:根據CRNN算法將深度卷積網絡和雙向循環網絡相結合,進行端到端的網絡訓練;
步驟6:通過訓練得到圖片中文字所在的位置及模型識別內容,并進行錨點定位、圖片縮放和擺正、模板匹配、干擾文本過濾和識別文本二次糾正,提取文字信息。
優選的,所述步驟4中目標檢測算法的骨架網絡采用殘差網絡的FPN版本,在多尺寸的特征圖上進行RPN目標提取,由RPN網絡輸出目標區域,再經分類定位的多任務損失判斷目標的坐標和類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海天壤智能科技有限公司,未經上海天壤智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010845724.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種茶葉渣貓砂及其制備方法
- 下一篇:一種智能家居領域的防夾手閉合門機構
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





