[發(fā)明專利]一種基于深度學(xué)習(xí)的漢字識別系統(tǒng)的實現(xiàn)方法在審
| 申請?zhí)枺?/td> | 201610858307.4 | 申請日: | 2016-09-28 |
| 公開(公告)號: | CN106650736A | 公開(公告)日: | 2017-05-10 |
| 發(fā)明(設(shè)計)人: | 衣秀;陳安猛;房善華;王本強(qiáng);郭運艷 | 申請(專利權(quán))人: | 浪潮軟件集團(tuán)有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/46 |
| 代理公司: | 濟(jì)南信達(dá)專利事務(wù)所有限公司37100 | 代理人: | 姜明 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 漢字 識別 系統(tǒng) 實現(xiàn) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,具體地說是一種基于深度學(xué)習(xí)的漢字識別系統(tǒng)的實現(xiàn)方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)和人工智能的迅猛發(fā)展,交流和信息傳遞方式從文字向圖片和語音的方式轉(zhuǎn)變,圖片文字信息的識別的成為一個重要需求。
傳統(tǒng)的文字信息識別方法,通過計算圖片像素、圖片中文字的外圍結(jié)構(gòu)、筆劃方向等,生成單個文字特征庫,識別環(huán)節(jié)通過與特征庫比對找出最小距離,從而判斷文字類別,對于不同字號、橫縱拉伸及旋轉(zhuǎn)的文字圖片識別能力差。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)任務(wù)是針對以上不足之處,提供一種基于深度學(xué)習(xí)的漢字識別系統(tǒng)的實現(xiàn)方法,使用圖像處理技術(shù)完成灰度化、二值化,泛化能力強(qiáng),抗干擾能力強(qiáng)。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種基于深度學(xué)習(xí)的漢字識別系統(tǒng)的實現(xiàn)方法,將包含文字的圖片進(jìn)行預(yù)處理、切分、識別,重組成一段文本,從而實現(xiàn)圖片到文本的轉(zhuǎn)換;包括:
1)圖片預(yù)處理:用于對輸入的原始圖片灰度化、二值化、傾斜校正,得到一張比較規(guī)整的圖片;
2)圖片切分:用于對輸入的大篇幅文字的圖片切分,先切分成行,然后對每一行切分出單個的字;
3)圖片識別:用于識別切分出的單個字,將每個單字圖片調(diào)用識別模塊,得出識別文字結(jié)果;
4)文本重組:用于對得到的單個字識別結(jié)果按照順序組合,并進(jìn)行校正,最終產(chǎn)出識別結(jié)果文本段。
漢字識別系統(tǒng),使用圖像處理技術(shù)完成灰度化、二值化,使用圖片像素統(tǒng)計、分析,實現(xiàn)傾斜校正和行、字切分,引入深度學(xué)習(xí),實現(xiàn)文字圖片識別,引入自然語言處理,實現(xiàn)文本重組和校正。
使用技術(shù):基于漢字識別的圖片質(zhì)量和性能要求,整個識別系統(tǒng)采用C/C++編寫,圖像處理模塊部分調(diào)用opencv的處理接口,深度學(xué)習(xí)模型采用C++版本的Caffe開源框架的Lenet模型的改進(jìn)版本。
圖像預(yù)處理:輸入的文字圖像多為多通道、有噪聲和有傾斜的圖片,在識別前對圖片做歸一化。首先將多通道圖片轉(zhuǎn)化為單通道的灰度圖片,然后將其通過閾值轉(zhuǎn)化為只有0和1的二值化圖片,接著分析圖片中的文字區(qū)域,將其切割出來,對切割圖片進(jìn)行傾斜校正,盡量保證行是水平的,最后對文字區(qū)域進(jìn)行行切割,對每行進(jìn)行字切割。其中切割部分采用投影方法,行切割中,對每行進(jìn)行投影,根據(jù)行間的空白部分,統(tǒng)計切割出每一行;對于每行文字,采用列投影,根據(jù)字間隔統(tǒng)計字的大致寬度及字之間的間隔距離,然后在切割中對每個字寬和左右部首寬度做具體策略,先統(tǒng)計后切割,根據(jù)輸入圖片動態(tài)調(diào)整閾值,最終實現(xiàn)窄字符及左右或左中右結(jié)構(gòu)漢字不被切割錯,完成字切割。
圖像識別:圖像識別指單個文字圖像的識別,包括訓(xùn)練和模型使用兩部分。訓(xùn)練過程中,先生成訓(xùn)練和測試兩個數(shù)據(jù)集合,本發(fā)明主要針對印刷體的宋體、仿宋、黑體和楷體四種類型,字號采用小四,掃描后切割出單個字符圖像,通過橫縱向拉伸、角度傾斜和縮放等變換產(chǎn)出400*3755個樣本集合,組合北郵的手寫樣本1000*3755,最后將1400*3755放入樣本集合分成測試集和訓(xùn)練集。調(diào)用深度網(wǎng)絡(luò)Lenet模型對3755類的漢字進(jìn)行訓(xùn)練和預(yù)測,通過模型調(diào)節(jié)和測試,最終產(chǎn)出網(wǎng)絡(luò)模型和參數(shù)權(quán)重文件。
漢字識別系統(tǒng)流程實現(xiàn):前端部分為圖片輸入,后端對輸入的圖像進(jìn)行預(yù)處理、行字切割,調(diào)用深度網(wǎng)絡(luò)模型識別單個圖像漢字類別,并按照原始圖像的段落重新組合出文本段,然后調(diào)用自然語言處理的相關(guān)接口,完成文本校正,并將其返回到前端。對于用戶使用,只需將待檢測圖片上傳,服務(wù)器經(jīng)過一系列運算,將識別結(jié)果返回給用戶。
使用時,用戶只需要將待識別的文字圖片上傳,通信服務(wù)器將圖片轉(zhuǎn)發(fā)至后端服務(wù)器。后端服務(wù)器首先將圖片進(jìn)行灰度化、二值化、傾斜校正、行字切分,調(diào)用深度網(wǎng)絡(luò)模型,計算得到分類預(yù)測。然后將單字圖片的預(yù)測文字按照行和段組合,并調(diào)用自然語言處理詞庫進(jìn)行文本校正,最后將校正后的文本段返回給用戶。
本發(fā)明的一種基于深度學(xué)習(xí)的漢字識別系統(tǒng)的實現(xiàn)方法和現(xiàn)有技術(shù)相比,具有以下有益效果:
用戶使用移動端或web端上傳待識別文字圖片后,后端服務(wù)器實時計算,完成圖片預(yù)處理、分割和識別,文本校正后返回給用戶。整個后端多任務(wù)并發(fā)執(zhí)行,快速反饋結(jié)果,并且可以同時響應(yīng)多個用戶的請求;
前端提供用戶編輯接口,用戶可以標(biāo)注版面、調(diào)整圖片傾斜等,滿足自主編輯,同時提供一鍵化識別;
引入深度網(wǎng)絡(luò)結(jié)構(gòu),使識別準(zhǔn)確率比傳統(tǒng)方法提升,同時降低開發(fā)者對圖像及文字相關(guān)專業(yè)知識的大量學(xué)習(xí)成本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮軟件集團(tuán)有限公司,未經(jīng)浪潮軟件集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610858307.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





