[發(fā)明專利]一種基于深度學(xué)習(xí)的OCR方法有效
| 申請?zhí)枺?/td> | 201811257203.3 | 申請日: | 2018-10-26 |
| 公開(公告)號: | CN109376658B | 公開(公告)日: | 2022-03-08 |
| 發(fā)明(設(shè)計)人: | 王慜驪;林路;桂曉雷;安通鑒;林康;陳立強 | 申請(專利權(quán))人: | 信雅達科技股份有限公司;安徽省信雅達軟件工程有限公司 |
| 主分類號: | G06V30/41 | 分類號: | G06V30/41;G06V30/19;G06V30/26;G06V30/148;G06V30/168;G06V30/18;G06K9/62;G06N3/04 |
| 代理公司: | 杭州裕陽聯(lián)合專利代理有限公司 33289 | 代理人: | 張解翠 |
| 地址: | 310051 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) ocr 方法 | ||
本發(fā)明公開了一種基于深度學(xué)習(xí)的OCR方法,包含如下步驟:獲取待識別圖像;對待識別圖像進行縮放,然后對縮放后的圖像進行預(yù)處理,所述的預(yù)處理為銳化、灰度化、二值化、矯正傾斜、降噪、去公章中的任意一項或多項;將預(yù)處理后的圖像放入深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中,得到縮放處理后圖像的多個候選文本區(qū)域;將縮放處理后圖像的多個候選文本區(qū)域放入基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中,將候選文字區(qū)域中的內(nèi)容轉(zhuǎn)換為計算機可讀的文本;將上述計算機可讀的文本放入深度學(xué)習(xí)語言模型中,對文本識別結(jié)果進行校正。本發(fā)明可以實現(xiàn)影像的文字內(nèi)容的智能提取,為各行業(yè)人員提供了快速檢索以及快速獲取信息的服務(wù),提升了工作效率,識別字段準確率高,提高處理速度。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機軟件中圖像識別技術(shù)領(lǐng)域,尤其涉及一種基于深度學(xué)習(xí)的OCR方法。
背景技術(shù)
基于光學(xué)字符識別(以下簡稱OCR)的針對文字區(qū)域檢測定位識別技術(shù)是指通過計算機等設(shè)備,利用OCR技術(shù)將紙質(zhì)材料中的有效信息自動提取和識別出來,并進行相應(yīng)處理,它是實現(xiàn)無紙化的計算機自動處理的關(guān)鍵技術(shù)之一。而傳統(tǒng)的圖像文字識別即為OCR,即將待識別紙質(zhì)文件掃描成電子圖像的基礎(chǔ)上進行識別。但是考慮到掃描效果的好壞、紙質(zhì)文件本身的品質(zhì)(比如印刷質(zhì)量、字體清晰度,字體規(guī)范度等)、內(nèi)容布局(文字的排列情況,比普通文本與表格文本和票據(jù))的差異,OCR的實際效果不總是讓人滿意。而針對不同的紙質(zhì)文檔的識別準確率的要求有差異,比如票據(jù)的識別,對準確率的要求是非常高的,因為如果一個數(shù)字識別錯誤就可能導(dǎo)致致命的后果,傳統(tǒng)的OCR識別不能滿足這樣高精度的識別要求。面對巨大的識別需要急需能夠快速高效的圖像文字識別方法。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的不足,本發(fā)明提出一種基于深度學(xué)習(xí)的OCR方法,該方法的具體步驟如下:
一種基于深度學(xué)習(xí)的OCR方法,其特征在于,該方法包括如下步驟:
S1:獲取待識別圖像;
S2:對待識別圖像進行縮放,然后對縮放后的圖像進行預(yù)處理,所述的預(yù)處理為銳化、灰度化、二值化、矯正傾斜、降噪、去公章中的任意一項或多項;
S3:將預(yù)處理后的圖像放入深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中,得到縮放處理后圖像的多個候選文本區(qū)域;
S4:將縮放處理后圖像的多個候選文本區(qū)域放入基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中,將候選文字區(qū)域中的內(nèi)容轉(zhuǎn)換為計算機可讀的文本;
S5:將上述計算機可讀的文本放入深度學(xué)習(xí)語言模型中,對文本識別結(jié)果進行校正。
進一步地,所述步驟S2中圖像預(yù)處理的去公章采用如下方法:
S2.1:將待識別圖像由RGB顏色空間模型轉(zhuǎn)化到HSI顏色空間模型,采用閾值控制法提取紅色分量,并把彩色圖像灰度化,然后采用圖像細化算法對圖像進行細化得到骨架圖;
S2.2:采用橢圓、圓形和矩形三種形狀檢測算法對S2.1得到的骨架圖進行形狀檢測,從而定位獲取包圍公章的最小的矩形輪廓和公章在待識別的圖像中的位置,并將印章提取出來;
S2.3:將包圍公章的最小的矩形輪廓從待識別的圖像中分離,然后將剩余的彩色圖像灰度化,并使用圖像修復(fù)算法,獲得無印章的圖像。
進一步地,所述的S3具體為:
S3.1:生成文本區(qū)域候選框,以縮放處理后的圖像作為inception-RPN網(wǎng)絡(luò)的輸入,在VGG16模型的卷積特征響應(yīng)圖上滑動一個inception網(wǎng)絡(luò),并在每個滑動位置輔助一套文本特征先驗框,計算每一個候選文本區(qū)域的得分;其中,所述的RPN網(wǎng)絡(luò)是在CNN上增加全卷積層的分類層和邊框回歸層的全卷積網(wǎng)絡(luò),Inception Module中包含3種1x1,3x3,5x5的不同尺寸的卷積和一個最大3x3池化層,所述的Inception-RPN網(wǎng)絡(luò),是模仿Inception結(jié)構(gòu)構(gòu)造RPN網(wǎng)絡(luò),并只用了單層結(jié)構(gòu)的Inception來提取候選文本區(qū)域;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于信雅達科技股份有限公司;安徽省信雅達軟件工程有限公司,未經(jīng)信雅達科技股份有限公司;安徽省信雅達軟件工程有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811257203.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- OCR文檔識別方法及其裝置
- 智能調(diào)度多OCR識別引擎的方法及設(shè)備
- OCR掛接方法、裝置與設(shè)備
- 一種用于教學(xué)系統(tǒng)的OCR識別方法、裝置和終端
- OCR識別模型的確定方法及裝置
- 基于聯(lián)邦OCR模型的字符檢測方法、裝置、設(shè)備和介質(zhì)
- OCR系統(tǒng)的評估方法、裝置、設(shè)備及可讀存儲介質(zhì)
- OCR模型訓(xùn)練方法、系統(tǒng)及裝置
- 識別轉(zhuǎn)換圖像文件的方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)
- OCR訓(xùn)練數(shù)據(jù)生成方法、裝置、計算機設(shè)備及存儲介質(zhì)





