[發(fā)明專利]一種基于深度學習的手寫體數(shù)字識別方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201610126470.1 | 申請日: | 2016-03-04 |
| 公開(公告)號: | CN107153810A | 公開(公告)日: | 2017-09-12 |
| 發(fā)明(設計)人: | 丁世飛;侯艷路 | 申請(專利權(quán))人: | 中國礦業(yè)大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/66;G06N3/04;G06N3/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 221116 江蘇省徐州市*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 手寫體 數(shù)字 識別 方法 系統(tǒng) | ||
技術(shù)領域
本發(fā)明涉及模式識別和機器學習領域,具體涉及一種基于深度學習的手寫數(shù)字識別方法及系統(tǒng)。
背景技術(shù)
手寫數(shù)字識別是日常生活和工業(yè)領域處理一些數(shù)據(jù)和信息的核心技術(shù),比如:統(tǒng)計報表、財務報表、郵政編碼、各種票據(jù)等等。手寫體數(shù)字識別作為圖像識別領域下的一個很重要的分支,同時也是模式識別下的一個傳統(tǒng)研究領域,不僅具有重大的現(xiàn)實意義和應用價值,還有著極其關鍵的理論價值。在實際應用中尤其在金融領域?qū)ψR別的精度有相當苛刻的要求,單個數(shù)字的正確與否就可能造成難以估量的損失。
卷積神經(jīng)網(wǎng)絡是專門為處理二維數(shù)據(jù)的,被認為是第一個采用多層次網(wǎng)絡結(jié)構(gòu)的深度學習方法,近年來在圖像識別領域取得了巨大的成功。由于采用局部連接和權(quán)值共享,保持網(wǎng)絡深層結(jié)構(gòu)的同時又大大減少了網(wǎng)絡參數(shù),使模型具有良好的泛化能力又較容易訓練。
在經(jīng)典的模式識別中,一般是事先提取特征。提取諸多特征后,要對這些特征進行相關性分析,找到最能代表字符的特征,去掉對分類無關和自相關的特征。然而,這些特征的提取太過依賴人的經(jīng)驗和主觀意識,提取到的特征的不同對分類性能影響很大,甚至提取的特征的順序也會影響最后的分類性能。同時,圖像預處理的好壞也會影響到提取的特征。而卷積神經(jīng)網(wǎng)絡不用對圖像進行復雜的預處理操作,可以方便地把圖像作為輸入,通過大量的數(shù)據(jù)來學習特征的,避免了顯示的特征提取,比以往的人工選取特征更可靠。
發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明提出一種基于深度學習的手寫數(shù)字識別方法和系統(tǒng),避免了顯式的提取特征,直接將圖片作為輸入,訓練得到一個卷積神經(jīng)網(wǎng)絡,選取卷積神經(jīng)網(wǎng)絡最后一層的輸出最為識別結(jié)果,明顯提高了識別的正確率和效率。
本發(fā)明是通過以下方案實現(xiàn)的:
本發(fā)明涉及一種基于卷積神經(jīng)網(wǎng)絡的手寫體數(shù)字識別方法,通過構(gòu)建帶標簽的訓練集作為樣本集對卷積神經(jīng)網(wǎng)絡進行訓練,并將訓練好的卷積神經(jīng)網(wǎng)絡處理待識別的圖片,最后根據(jù)卷積神經(jīng)網(wǎng)絡的輸出向量判斷識別結(jié)果。
本發(fā)明具體步驟如下:
步驟1,制作訓練集并將圖片做預處理:根據(jù)可能出現(xiàn)的書寫狀況,不同的書寫習慣,盡可能有偏差的書寫,制作手寫數(shù)字圖像的訓練集和標簽集,訓練集 為經(jīng)過預處理后的手寫數(shù)字圖像,首先將彩色圖像灰度化,然后把灰度圖像歸一化為28*28大小;
步驟2,構(gòu)造七層的卷積神經(jīng)網(wǎng)絡:該網(wǎng)絡包括:輸入層、兩個卷積層、兩個降采樣層、一個全連接層和一個輸出層,其中:輸入層的數(shù)據(jù)是預處理完的手寫數(shù)字圖片,是28*28像素點構(gòu)成的矩陣,卷積層C1有個特征圖,降采樣層S2同樣有6個特征圖,卷積層C3則有12個特征圖,S4層對C3層特征圖基礎上進行降采樣得到12張?zhí)卣鲌D,此時結(jié)束了特征提取的過程,隨后通過單層感知機,最終得到一個10*1的列向量輸出;
步驟3,訓練卷積神經(jīng)網(wǎng)絡,網(wǎng)絡的基本參數(shù)和規(guī)格設置完成后,每次選取固定個數(shù)的樣本輸入到卷積神經(jīng)網(wǎng)絡中,結(jié)合BP反向傳播算法調(diào)整權(quán)重和偏置,具體過程如下:
步驟3.1:對網(wǎng)絡初始化:對卷積核和權(quán)重進行隨機初始化,對偏置進行全0初始化;
步驟3.2:將2000個訓練樣本和標簽集導入初始化好的網(wǎng)絡進行訓練,經(jīng)過卷積層和降采樣層的逐層計算,最終得到實際輸出,其中訓練樣本包括10個數(shù)字類別:數(shù)字0-9;
步驟3.3:將實際輸出與標簽進行對比,得到誤差,結(jié)合BP反向傳播算法調(diào)整CNN的權(quán)重和偏置。
步驟4:手寫數(shù)字的識別,在系統(tǒng)手寫板中完成數(shù)字的書寫后,轉(zhuǎn)化為灰度圖,進行歸一化處理后,然后將其輸入到訓練好的卷積神經(jīng)網(wǎng)絡中,最終得到識別結(jié)果。
通過以上內(nèi)容可知,本申請?zhí)峁┑氖且环N基于卷積神經(jīng)網(wǎng)絡的手寫體數(shù)字識別方法及系統(tǒng),首先制作根據(jù)實際需要制作訓練集和標簽,然后設計網(wǎng)絡的層數(shù)、特征圖的數(shù)目和卷積核的大小等等,之后將訓練集輸入網(wǎng)絡中利用BP傳播算法完成對網(wǎng)絡權(quán)重和偏置的調(diào)整,最后輸入手寫數(shù)字圖像,預處理后輸入卷積神經(jīng)網(wǎng)絡,完成對數(shù)字圖像的識別。本申請通過卷積神經(jīng)網(wǎng)絡識別手寫數(shù)字圖像,避免了顯示的特征提取,直接將圖片作為網(wǎng)絡的輸入,識別準確率很高;且網(wǎng)絡一經(jīng)訓練即可反復使用,處理效率高;訓練時間短。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國礦業(yè)大學,未經(jīng)中國礦業(yè)大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610126470.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





