[發明專利]基于深度卷積神經網絡的脫機手寫漢字識別方法在審
| 申請號: | 201710855035.7 | 申請日: | 2017-09-20 |
| 公開(公告)號: | CN107590497A | 公開(公告)日: | 2018-01-16 |
| 發明(設計)人: | 趙輝;王艷美;劉真三 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/46;G06K9/62;G06N3/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 卷積 神經網絡 脫機 手寫 漢字 識別 方法 | ||
技術領域
本發明屬于圖像分類技術領域,具體是基于深度卷積神經網絡的脫機手寫漢字識別方法。
背景技術
脫機手寫漢字識別是模式識別領域中的一個子方向。脫機是指所處理的手寫文字是通過掃描儀或攝像頭等圖像捕捉設備采集到的手寫文字二維圖,以下均簡稱手寫漢字識別。2011年以前發表的研究論文和技術報告大都著重討論如何選擇特征和匹配方法以適應手寫體漢字字形的變化。就是在特征提取算法以及分類器的設計。傳統HCCR步驟包括:圖形歸一化、特征提取、降維、分類器訓練。而且由于漢字數量多,結構復雜、相似字多和書寫風格多變等問題,這些傳統方法不僅步驟復雜,而且在特征提取步驟中如果選取的特征不適合將會嚴重影響識別效果。雖然基于MQDF和DLQDF的方法已經取得了不錯的效果,但是目前已經達到了他們的瓶頸。
近幾年由于基于深度學習的圖像識別取得了重大的突破,深度卷積神經網絡(Deep Convolutional Neural Network,DCNN)也應用在了手寫漢字識別領域。在2013ICDAR國際比賽中,Fujitsu團隊采用CNN模型以94.77%的識別率獲得冠軍。之后出現了采用改進的模型以及預處理手段的手寫漢字識別模型。最常見的改進方法是使網絡增加對不同手寫漢字的形變的容忍度,其中就包括數據增強技術和空間池化,這兩個方法有以下缺點,前者,根據對原始數據幾何形變產生新的樣本的方法是在手寫漢字識別中應用最多的一種方法,如果只有樣本成指數級增長的模型的學習能力才得以提升,則也是個不容忽視的問題。后者,池化操作會損壞圖像細節。而且隨著數據的爆炸式增長深度卷積神經網絡雖然獲得很大的成功,但是還沒有一種準則解決同一種類數據的幾何變化。比如同一個手寫的“漢”字,不同的人寫出來的大小和筆畫的形狀都是不盡相同的。數據的變換多樣是影響深度卷積神經網絡識別效果的關鍵因素。
改進的方法有:預處理方式,對漢字進行扭曲形變來擴充數據集,提高卷積神經網絡的泛化能力;特征提取,結合傳統Gabor方向特征、HoG特征等,采用不同DCNN模型。目前已經采用的模型有Szegedy等組成的GoogLeNet,K He,X Zhang等人設計的ResLeNet等模型。這些模型都是為圖片分類設計。與手寫漢字識別還是有一定的區別,雖然達到了不錯的效果但是網絡結構較深,模型復雜,調試困難。而且對漢字進行扭曲形變的程度不好把握,不能自適應的選取角度。2015年,來自于Google旗下的新銳AI公司DeepMind的四位劍橋Phd
研究員設計了空間變換網絡(Spatial Transformer Network),可以實現自適應的旋轉、平移、縮放。但是直接將反向空間變換網絡與卷積神經網絡構成的框架用于手寫漢字識別,也有一些問題。比如,經過反向空間變換網絡之后,雖然漢字的方向得到糾正,但是糾正過的漢字筆畫較粗。而且處理過程中樣本是經過多層放縮、旋轉平移的樣本,然后直接輸入到卷積神經網絡識別。因為經過放縮的樣本裁剪掉了原圖片的邊緣信息,用在手寫漢字識別中會造成字體殘缺,嚴重影響識別效果。
因為目前大部分網絡忽略了實際手寫漢字的空間畸變,因為在實際書寫環境、風格、方向、位置、大小的不同導致樣本集變化多樣。然而,CNN仍然缺乏對輸入樣本的空間變化的魯棒性。傳統的歸一化方法僅把樣本轉化為規定大小的規范化漢字,雖然它對分類任務起到了舉足輕重的作用,但是歸一化方法不能保證HCCR任務是最佳的。而反向合成空間變換網絡能夠在沒有標注關鍵點的情況下,根據任務學習圖片的特征變換參數,將輸入圖片或者學習的特征空間上進行對齊,從而減少由于空間的旋轉、平移、尺度、扭曲等幾何變換對分類和識別的影響。
發明內容
本發明針對上面存在的問題以及漢字的特點,采用反向合成空間變換算法以及深度卷積神經網絡等算法對脫機手寫漢字進行識別。本方法對不同的書寫風格以及不同的書寫環境有良好的魯棒性。其中我們采用了反向合成空間變換網絡來解決來因書寫風格多樣帶來的字體扭曲、變形、傾斜等問題。并設計了與之對應的深度卷積神經網絡。深度卷積神經網絡可以有效提取特征并分類。最后反向合成空間變換網絡的輸出作為卷積神經網路的輸入,實現對于手寫漢字的識別。
本發明的技術方案及流程順序如下:
(1)搭建深度卷積神經網絡的TensorFlow深度學習框架平臺;
(2)將HWDB1.1數據集的GNT格式數據轉化為二進制并存儲為PKL格式
(3)讀取PKL格式數據并進行歸一化處理,并將其轉換為訓練集、交叉驗證集和測試集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710855035.7/2.html,轉載請聲明來源鉆瓜專利網。





