[發(fā)明專利]一種基于卷積神經(jīng)網(wǎng)絡(luò)的古彝文識別方法有效
| 申請?zhí)枺?/td> | 201810638037.5 | 申請日: | 2018-06-20 |
| 公開(公告)號: | CN108960301B | 公開(公告)日: | 2021-09-10 |
| 發(fā)明(設(shè)計)人: | 陳善雄;王明貴;王小龍;馬輝;劉云;張仕學(xué) | 申請(專利權(quán))人: | 西南大學(xué);貴州工程應(yīng)用技術(shù)學(xué)院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04 |
| 代理公司: | 北京元本知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11308 | 代理人: | 常桑 |
| 地址: | 400715*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 卷積 神經(jīng)網(wǎng)絡(luò) 彝文 識別 方法 | ||
本發(fā)明基于卷積神經(jīng)網(wǎng)絡(luò)的古彝文識別方法,先構(gòu)建一個由4個卷積層、2個全連接層和1個softmax層構(gòu)成的卷積神經(jīng)網(wǎng)絡(luò),在每個卷積層的前方添加額外的卷積層;將ResBlock、Inception以及SEBlock相結(jié)合形成一個混合結(jié)構(gòu),并將SEBlock附加在Incpetion結(jié)構(gòu)的后面替換原始ResBlock中的權(quán)重層,再將混合結(jié)構(gòu)添加至每個卷積層的前方得到改進后的卷積神經(jīng)網(wǎng)絡(luò);在Inception結(jié)構(gòu)中分別使用1×1,3×3,5×5三種卷積核進行卷積并將它們的輸出進行通道疊加,再次使用一個1×1的卷積核將通道數(shù)還原,使用SEBlock對Inception結(jié)構(gòu)的輸出進行特征重新標定,將重新標定后的殘差累加到原始的輸入上。本發(fā)明構(gòu)思合理,識別效果好,能避免識別中出現(xiàn)性能下降的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及文字識別技術(shù)領(lǐng)域,具體涉及一種基于卷積神經(jīng)網(wǎng)絡(luò)的古彝文識別方法。
背景技術(shù)
文字識別技術(shù)是計算機視覺領(lǐng)域的重要課題,其涉及到了機器學(xué)習(xí)、自然語言處理、統(tǒng)計學(xué)等諸多領(lǐng)域,一直是一個比較熱門的話題。文字識別的目的是將圖像中的文本通過一系列的處理轉(zhuǎn)換為數(shù)字形式。文字識別并不是一個新的問題,早在計算機發(fā)明前,人們就嘗試對文字識別進行研究。傳統(tǒng)的文字識別主要依賴于先驗規(guī)則和人工特征,人們往往需要對原始圖像進行繁瑣的預(yù)處理及特征提取工作,但這些往往并不能完全的表示一個事物,或多或少會遺漏一些比較重要的特征。而以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional NerualNetwork,CNN)為代表的深度學(xué)習(xí)能夠通過大量的樣本自動發(fā)現(xiàn)內(nèi)在特征,避免了繁瑣的特征提取工作,使得設(shè)計一個端到端的文字識別系統(tǒng)成為可能。當(dāng)前深度學(xué)習(xí)已經(jīng)在英文、中文識別上得到了相當(dāng)廣泛的應(yīng)用,并取得了比較滿意的結(jié)果。但相較于比較成熟的漢字識別而言,國內(nèi)的古彝文識別當(dāng)前僅處于起步階段。現(xiàn)存的古彝文基本都為手寫體,相較于標準印刷體而言,手寫體的多樣性無疑加大了識別的難度。古彝文擁有這龐大的字符集,2004年出版的《滇川黔桂彝文字集》就包含著87000多個字。整理后的貴州彝文楷體字體中也擁有著9000多個古彝文字。對如此龐大的字符集進行分類是一個比較困難的任務(wù)。此外,手寫樣本庫是古彝文識別成功的關(guān)鍵因素,直接決定著識別結(jié)果的效果。然而當(dāng)前的古彝文研究仍然主要集中在古彝文整理,沒有人專門對古彝文識別進行研究,找不到可用的古彝文手寫樣本庫。再則隨著時間的流逝古彝文通曉者越來越少,這也給古彝文的識別帶來了新的挑戰(zhàn)。
相較于操作繁瑣的傳統(tǒng)文字識別技術(shù),以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)可以自動從樣本中發(fā)現(xiàn)特征,避免了繁瑣的樣本提取工作,從而簡化設(shè)計并大幅度提高識別準確率。使得設(shè)計一個端到端的文字識別系統(tǒng)成為可能。
近些年來,卷積神經(jīng)網(wǎng)絡(luò)發(fā)展迅猛,各種變體層出不窮,卷積神經(jīng)網(wǎng)絡(luò)的深度不斷增加,比較具有影響力主要有ResNet、Inception、SENet等等。然而這些網(wǎng)絡(luò)大多是面向GPU優(yōu)化的,同時其訓(xùn)練往往需要耗費大量的內(nèi)存與計算資源,普通的個人計算機往往無法負擔(dān)這種重負。例如Inception V4結(jié)構(gòu),將其中所有Inception-resnet結(jié)構(gòu)重復(fù)次數(shù)縮減1,也將消耗約11GB的內(nèi)存,隨著批數(shù)據(jù)大小的增大,所消耗的內(nèi)存更加龐大,而當(dāng)前大多數(shù)的個人計算機僅有8GB內(nèi)存。此外,由于大多數(shù)個人計算機無法提供相應(yīng)的顯卡加速功能,其訓(xùn)練時間將會以月為單位。鑒于此,在修改卷積神經(jīng)網(wǎng)絡(luò)提升準確率時,應(yīng)當(dāng)盡量避免帶入新的計算量或減少網(wǎng)絡(luò)已有的計算量。而對于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(如圖1所示),單純地向網(wǎng)絡(luò)中添加額外的卷積層,其帶來的性能是有限的,同時隨著添加的卷積層的增多,其訓(xùn)練時間急劇增加,但模型的性能卻出現(xiàn)了下降。
發(fā)明內(nèi)容
針對上述背景技術(shù)中所指的問題,本發(fā)明提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的古彝文識別方法,能夠避免古彝文識別中隨著卷積層數(shù)的增加而出現(xiàn)性能下降的問題,同時在帶入有限計算量的情況下,進一步提升模型的性能;同時提出了一套樣本增量流程對于手寫樣本進行增量,擴大樣本集,提升模型的穩(wěn)定性,改善模型性能,避免了繁瑣的預(yù)處理技術(shù),是一種端到端的古彝文識別方法。
本發(fā)明的技術(shù)方案如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西南大學(xué);貴州工程應(yīng)用技術(shù)學(xué)院,未經(jīng)西南大學(xué);貴州工程應(yīng)用技術(shù)學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810638037.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 卷積運算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計算方法及系統(tǒng)
- 卷積運算方法及系統(tǒng)
- 卷積運算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計算機存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運算裝置
- 基于FPGA實現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





