[發明專利]一種基于深度學習的OCR方法有效
| 申請號: | 201811257203.3 | 申請日: | 2018-10-26 |
| 公開(公告)號: | CN109376658B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 王慜驪;林路;桂曉雷;安通鑒;林康;陳立強 | 申請(專利權)人: | 信雅達科技股份有限公司;安徽省信雅達軟件工程有限公司 |
| 主分類號: | G06V30/41 | 分類號: | G06V30/41;G06V30/19;G06V30/26;G06V30/148;G06V30/168;G06V30/18;G06K9/62;G06N3/04 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 張解翠 |
| 地址: | 310051 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 ocr 方法 | ||
1.一種基于深度學習的OCR方法,其特征在于,該方法包括如下步驟:S1:獲取待識別圖像;
S2:對待識別圖像進行縮放,然后對縮放后的圖像進行預處理,所述的預處理為銳化、灰度化、二值化、矯正傾斜、降噪、去公章中的任意一項或多項;
去公章采用如下方法:S2.1:將待識別圖像由RGB顏色空間模型轉化到HSI顏色空間模型,采用閾值控制法提取紅色分量,并把彩色圖像灰度化,然后采用圖像細化算法對圖像進行細化得到骨架圖;
S2.2:采用橢圓、圓形和矩形三種形狀檢測算法對S2.1得到的骨架圖進行形狀檢測,從而定位獲取包圍公章的最小的矩形輪廓和公章在待識別的圖像中的位置,并將印章提取出來;
S2.3:將包圍公章的最小的矩形輪廓從待識別的圖像中分離,然后將剩余的彩色圖像灰度化,并使用圖像修復算法,獲得無印章的圖像,具體為:
(1)將包圍公章的最小的矩形輪廓從待識別的圖像中分離,然后將剩余的彩色圖像灰度化和全局二值化;
(2)使用圖像膨脹處理覆蓋掉印章的邊緣輪廓;
(3)選用FMM圖像的修復算法,進一步修復印章的邊緣輪廓的殘留痕跡,獲得無印章的圖像;
S3:將預處理后的圖像放入深度學習神經網絡中,得到縮放處理后圖像的多個候選文本區域;
S4:將縮放處理后圖像的多個候選文本區域放入基于深度學習神經網絡中,將候選文字區域中的內容轉換為計算機可讀的文本;
S5:將上述計算機可讀的文本放入深度學習語言模型中,對文本識別結果進行校正。
2.根據權利要求1所述的方法,其特征在于,所述的S3具體為:
S3.1:生成文本區域候選框,以縮放處理后的圖像作為inception-RPN網絡的輸入,在VGG16模型的卷積特征響應圖上滑動一個inception網絡,并在每個滑動位置輔助一套文本特征先驗框,計算每一個候選文本區域的得分;其中,所述的RPN網絡是在CNN上增加全卷積層的分類層和邊框回歸層的全卷積網絡,Inception Module中包含3種1x1,3x3,5x5的不同尺寸的卷積和一個最大3x3池化層,所述的Inception-RPN網絡,是模仿Inception結構構造RPN網絡,并只用了單層結構的Inception來提取候選文本區域;
S3.2:并入文本類別監督信息,融入多層次的區域下采樣信息;
S3.3:將每一行的文本特征輸入到LSTM網絡模型中,對文本的高度、文本的起始位置和結束位置進行判斷,以一種端到端的方式訓練候選文本區域生成網絡;
S3.4:對所述的候選文本區域位置進行修正,獲得具有一定方向的傾斜文本候選文本區域;
S3.5:使用候選框過濾算法對候選文本區域進行過濾,移除遠超出實際文本區域的多余的候選區域。
3.根據權利要求1所述的方法,其特征在于,所述的S4具體為:
S4.1:使用全深度卷積神經網絡對每個候選文本區域進行文本圖像特征提取,把每個候選文本區域表示成特征向量;
S4.2:采用雙層循環神經網絡對所述的特征向量進行處理,并輸出一個關于字符集的概率分布;
S4.3:采用CTC網絡作為轉錄層,將關于字符集的概率分布使用前向計算和反向梯度傳播的動態規劃算法,輸出計算機可讀文本;其中,所述的CTC網絡有一個softmax輸出層,除了序列的輸出外,還增加一個額外的輸出單元,最開始激勵的|L|個單元被解釋成在這個時刻對應標簽的觀察概率,激勵的額外的單元是一個空白的觀察概率或者無標簽的觀察概率,這些輸出定義為在給定輸入序列的情況下,所有可能的對齊所有標記序列的方式;標記序列的概率是所有可能對齊方式的概率和。
4.根據權利要求1所述的方法,其特征在于,所述S5具體為:
S5.1:建立語料庫,并用語料庫訓練詞向量和語言模型;
S5.2:將S4得到的計算機可讀文本放入訓練后的語言模型中,并將集束搜索方式嵌入所述的語言模型中,輸出修正后的文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于信雅達科技股份有限公司;安徽省信雅達軟件工程有限公司,未經信雅達科技股份有限公司;安徽省信雅達軟件工程有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811257203.3/1.html,轉載請聲明來源鉆瓜專利網。





