[發明專利]一種基于深度學習的文字識別方法在審
| 申請號: | 201710538785.1 | 申請日: | 2017-07-04 |
| 公開(公告)號: | CN107273897A | 公開(公告)日: | 2017-10-20 |
| 發明(設計)人: | 凌賀飛;趙航;李平 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62;G06N3/02 |
| 代理公司: | 華中科技大學專利中心42201 | 代理人: | 廖盈春,李智 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 文字 識別 方法 | ||
技術領域
本發明屬于模式識別中的文字識別領域,更具體地,涉及一種基于深度學習的文字識別方法。
背景技術
隨著現代科學技術的不斷發展與互聯網的廣泛普及,我們每天都要接觸到以各類形式呈現的海量信息資源,特別是在我們平時的生活學習和工作當中,經常難以避免地需要處理大量的文字信息,并將其錄入到計算機中。因此,如何能夠快速準確地將這些文字信息錄入到計算機等各類電子設備之中便成為了一個急需解決的問題。光學字符識別(簡稱OCR)是指通過借助機器設備自動提取出圖片中的文字,并將其轉換成機器可以編輯的文字的一種技術。
一般而言,傳統的漢字識別方法主要包括數據預處理、特征提取和分類識別三部分。
(1)預處理。預處理的作用在于加強有用圖像信息、去除噪聲、從而有利于特征提取。該過程通過二值化、平滑去噪和歸一化等手段來執行。其中,二值化是實現灰度文本圖像到二值化文本圖像的轉化;去噪是將二值化后,圖像中的孤立點(污點)去除;歸一化是規范文字的大小、位置形狀以減少相同字符之間的形變。
(2)特征提取。特征提取分為2大類:結構特征提取與統計特征提取。基于結構的特征提取是指,提取字符輪廓或骨架上的字符像素信息,如筆劃特征、輪廓、周邊特征、部件等,該方法能有效適應字體變化,區分相似字能力強,但是在圖像文本中存在各種干擾,如傾斜、扭曲、斷裂、粘連、五點等,該類方法抗干擾能力較弱。對樣本進行數學變換后提取的特征,被稱為統計特征。主要采用的方法有小波變換、傅里葉變換、頻域變換、矩、,離散余弦變換等。提取出的特征通常供給統計分類器使用。總體而言,統計特征的識別相對結構特征細分能力較弱,區分相似字的能力不強。
(3)分類識別。分類識別時對特征提取所獲得樣本,按建立的分類規則進行識別。分類器是分類識別的核心問題,分類器的作用是加快匹配速度,提高識別效率,達到識別效果。
但傳統漢字字體的識別方法存在著不足,因為漢字字符的復雜性,特征提取方法不能處理多變的漢字外形,特征點提取方法需要人工專家定義重要的特征點位置,而且,對于那些特征點的重要性也不能給出統一的標準,從而導致文字識別準確率較低。
發明內容
針對現有技術的以上缺陷或改進需求,本發明的目的在于提供了一種基于深度學習的文字識別方法,由此解決目前的文字識別方法對文字的識別準確率較低的技術問題。
為實現上述目的,按照本發明的一個方面,提供了一種基于深度學習的文字識別方法,包括:空間變換層構建階段以及深層卷積神經網絡構建與訓練階段;
所述空間變換層構建階段包括:
定位網絡接收輸入的特征圖,經過系列隱層,輸出空間變換參數,其中,該參數是變換函數作用在特征圖上的參數;
網格生成器使用定位網絡輸出的空間變換參數產生出采樣網格;
采樣器將輸入的特征圖以及采樣網格作為輸入,在采樣網格點上對輸入的特征圖進行采樣,最后得到輸出特征圖結果;
所述深層卷積神經網絡構建與訓練階段包括:
構建深層卷積神經網絡的結構,將構建的空間變換層設置在深層卷積神經網絡的最開始位置得到目標深層卷積神經網絡;
采用隨機梯度下降法對目標深層卷積神經網絡進行訓練,進而得到字符識別模型,所述字符識別模型用于對輸入的待識別文字圖像進行文字識別。
優選地,所述定位網絡包括兩個卷積層,各卷積層的卷積核數量為M,大小為N,步長為s,在每個卷積層后均設置一個最大值池化層,該池化層大小為L,步長為t,在每個池化層后均設置一個ReLU層,在第二個ReLU層后設置一個全連接層,在全連接層后設置一個ReLU層,接著最后一層也是全連接層,用于輸出空間變換參數,維度是d。
優選地,所述網格生成器使用定位網絡輸出的空間變換參數產生出采樣網格,包括:
由得到輸入特征圖中的各像素變換后的輸出像素,由所有輸出像素組成輸出特征圖中的采樣網格,其中,表示輸入特征圖中在第i個像素的源坐標,表示輸出特征圖中的采樣網格在第i個像素的目標坐標,Aθ表示仿射變換矩陣,為定位網絡輸出的空間變換參數,Gi表示采樣網格中的像素集。
優選地,所述采樣器將輸入的特征圖以及采樣網格作為輸入,在采樣網格點上對輸入的特征圖進行采樣,最后得到輸出特征圖結果,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710538785.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種手機名片及其應用
- 下一篇:一種向用戶推送信息的方法及系統





