[發明專利]一種基于CNN的手寫中文文本識別方法在審
| 申請號: | 201811495474.2 | 申請日: | 2018-12-07 |
| 公開(公告)號: | CN109740605A | 公開(公告)日: | 2019-05-10 |
| 發明(設計)人: | 何凱;黃婉蓉;馮旭;高圣楠 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/62 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文文本 手寫 卷積神經網絡 再利用 分割 中文 二值化處理 單個文字 橫向掃描 空白像素 框架構造 掃描處理 算法結合 文本圖片 文字分割 自動識別 縱向掃描 灰度化 連接層 訓練集 直方圖 池化 構建 卷積 投影 圖片 糾正 | ||
本發明公開了一種基于CNN的手寫中文文本識別方法,所述方法將單個手寫中文識別與文字分割算法結合起來,實現了手寫中文文本的自動識別,所述方法包括以下步驟:對文本圖片進行灰度化、二值化處理,再利用直方圖投影對中文文本進行分割;先通過橫向掃描分割出單行文字,再利用縱向掃描分割出單個文字;對單個中文圖片進行掃描處理,對中文進行正射糾正,并使其位于圖片中間位置,上下左右各留出10個空白像素;基于TensorFlow框架構造一個包括:4個卷積層、4個池化層和2個全連接層的卷積神經網絡,利用訓練集進行訓練;輸入待測圖片,根據構建的卷積神經網絡進行識別。
技術領域
本發明涉及計算機圖像處理領域,尤其涉及一種基于CNN(卷積神經網絡)的手寫中文文本識別方法。
背景技術
手寫中文識別是計算機圖像和視覺研究領域的熱點之一,在識別歷史文檔,郵件分類,手寫筆記的轉錄等方面都得到了廣泛地應用。盡管在過去的幾十年中,國內外學者已經在該領域作了大量研究,但仍然有許多問題沒有得到有效解決。手寫中文識別的主要困難來自中文結構復雜,字符種類多,數據大,各人風格不同,手寫失真等。在某些情況下,相似中文之間的無約束手寫樣本的差異可能非常小,例如字符“天”,“夫”和“夭”,“已”,“己”和“巳”,“目”,“白”和“自”等,使得識別任務更加具有挑戰性。
到目前為止,各國科研人員在手寫中文識別領域已經進行了半個多世紀的研究,提出了許多離線識別方法來實現手寫中文文本的機器識別,其中,以基于修改的二次判別函數(MQDF)[1]的方法最具代表性。此外,一些傳統方法(如修改的二次判別函數MQDF、判別學習型二次判別函數DLQDF),對手寫中文識別數據庫CASIA-HWDB取得了較好的識別效果,但識別準確率仍然低于93%,與人類表現尚有一定差距。
近年來,隨著計算機硬件的發展和大量的訓練數據集的建立,使得基于神經網絡識別手寫中文文本成為可能。LeCun在20世紀90年代提出了CNN來實現字符的機器識別,受到了廣泛關注;隨著近年來深度學習的興起,CNN為手寫中文識別帶來了新的突破性技術,大大縮小了計算機與人類表現之間的差距。
目前,國內外學者已經利用更深層次的體系結構對CNN作了擴展,并采用更好的訓練技術(如Dropout正規化方法)[2],以及更好的非線性激活功能(如ReLU線性整流函數)[3],成功解決了眾多計算機視覺和模式識別領域存在的問題,取得了比較理想的實現效果,例如:在2013年舉辦的ICDAR(文檔分析與識別國際會議)[4]上在線和離線中文手寫中文識別競賽中,富士通團隊在離線HCCR(手寫中文識別)競賽中獲得第一名,準確率達到94.77%。2014年,吳等人基于4個經過改編訓練的松弛卷積神經網絡(ATR-CNN),將手寫中文識別的準確度提高到了96.06%。
但是,現有技術一些較高的識別準確率都只是基于單個中文的識別,而在實際應用方面大多數情況都是基于文本的識別,因此從實際應用角度出發,需要在手寫中文文本識別上獲得較高的準確率。此外,通過加深網絡層次與復雜化網絡結構來提高識別準確率,會很大程度地增加參數總數,不利于實際應用。
發明內容
本發明提供了一種基于CNN的手寫中文文本識別方法,本發明解決了傳統手寫中文識別準確率較低的問題,并將單個手寫中文識別與文字分割算法結合起來,實現了手寫中文文本的自動識別,詳見下文描述:
一種基于CNN的手寫中文文本識別方法,所述方法將單個手寫中文識別與文字分割算法結合起來,實現了手寫中文文本的自動識別,所述方法包括以下步驟:
對文本圖片進行灰度化、二值化處理,再利用直方圖投影對中文文本進行分割;先通過橫向掃描分割出單行文字,再利用縱向掃描分割出單個文字;
對單個中文圖片進行掃描處理,對中文進行正射糾正,并使其位于圖片中間位置,上下左右各留出10個空白像素;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811495474.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種行駛區域檢測的方法和設備
- 下一篇:一種圖像識別方法及裝置





