[發(fā)明專利]一種基于深度學(xué)習(xí)的文字識別方法在審
| 申請?zhí)枺?/td> | 201710538785.1 | 申請日: | 2017-07-04 |
| 公開(公告)號: | CN107273897A | 公開(公告)日: | 2017-10-20 |
| 發(fā)明(設(shè)計(jì))人: | 凌賀飛;趙航;李平 | 申請(專利權(quán))人: | 華中科技大學(xué) |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62;G06N3/02 |
| 代理公司: | 華中科技大學(xué)專利中心42201 | 代理人: | 廖盈春,李智 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 文字 識別 方法 | ||
1.一種基于深度學(xué)習(xí)的文字識別方法,其特征在于,包括:空間變換層構(gòu)建階段以及深層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練階段;
所述空間變換層構(gòu)建階段包括:
定位網(wǎng)絡(luò)接收輸入的特征圖,經(jīng)過系列隱層,輸出空間變換參數(shù),其中,該參數(shù)是變換函數(shù)作用在特征圖上的參數(shù);
網(wǎng)格生成器使用定位網(wǎng)絡(luò)輸出的空間變換參數(shù)產(chǎn)生出采樣網(wǎng)格;
采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入,在采樣網(wǎng)格點(diǎn)上對輸入的特征圖進(jìn)行采樣,最后得到輸出特征圖結(jié)果;
所述深層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練階段包括:
構(gòu)建深層卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),將構(gòu)建的空間變換層設(shè)置在深層卷積神經(jīng)網(wǎng)絡(luò)的最開始位置得到目標(biāo)深層卷積神經(jīng)網(wǎng)絡(luò);
采用隨機(jī)梯度下降法對目標(biāo)深層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,進(jìn)而得到字符識別模型,所述字符識別模型用于對輸入的待識別文字圖像進(jìn)行文字識別。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述定位網(wǎng)絡(luò)包括兩個卷積層,各卷積層的卷積核數(shù)量為M,大小為N,步長為s,在每個卷積層后均設(shè)置一個最大值池化層,該池化層大小為L,步長為t,在每個池化層后均設(shè)置一個ReLU層,在第二個ReLU層后設(shè)置一個全連接層,在全連接層后設(shè)置一個ReLU層,接著最后一層也是全連接層,用于輸出空間變換參數(shù),維度是d。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述網(wǎng)格生成器使用定位網(wǎng)絡(luò)輸出的空間變換參數(shù)產(chǎn)生出采樣網(wǎng)格,包括:
由得到輸入特征圖中的各像素變換后的輸出像素,由所有輸出像素組成輸出特征圖中的采樣網(wǎng)格,其中,表示輸入特征圖中在第i個像素的源坐標(biāo),表示輸出特征圖中采樣網(wǎng)格在第i個像素的目標(biāo)坐標(biāo),Aθ表示仿射變換矩陣,為定位網(wǎng)絡(luò)輸出的空間變換參數(shù),Tθ為變換函數(shù),Gi表示采樣網(wǎng)格中的像素集。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入,在采樣網(wǎng)格點(diǎn)上對輸入的特征圖進(jìn)行采樣,最后得到輸出特征圖結(jié)果,包括:
由得到輸出特征圖中各像素對應(yīng)的坐標(biāo)點(diǎn)的像素值,其中,Φx和Φy為采樣內(nèi)核k()的參數(shù),是輸入特征圖的c通道在輸入特征圖中坐標(biāo)點(diǎn)(n,m)的像素值,Vic是輸出特征圖的c通道在輸出特征圖中第i個像素的坐標(biāo)點(diǎn)的輸出像素值,W表示輸入特征圖的寬,H表示輸入特征圖的高,C表示輸入特征圖的通道數(shù)。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入,在采樣網(wǎng)格點(diǎn)上對輸入的特征圖進(jìn)行采樣,最后得到輸出特征圖結(jié)果,包括:
由得到輸出特征圖中各像素對應(yīng)的坐標(biāo)點(diǎn)的像素值,其中,表示向下取整,δ()表示克羅內(nèi)克函數(shù),是輸入特征圖的c通道在輸入特征圖中坐標(biāo)點(diǎn)(n,m)的像素值,Vic是輸出特征圖的c通道在輸出特征圖中第i個像素的坐標(biāo)點(diǎn)的輸出像素值,W表示輸入特征圖的寬,H表示輸入特征圖的高,C表示輸入特征圖的通道數(shù)。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入,在采樣網(wǎng)格點(diǎn)上對輸入的特征圖進(jìn)行采樣,最后得到輸出特征圖結(jié)果,包括:
由得到輸出特征圖中各像素對應(yīng)的坐標(biāo)點(diǎn)的像素值,其中,是輸入特征圖的c通道在輸入特征圖中坐標(biāo)點(diǎn)(n,m)的像素值,Vic是輸出特征圖的c通道在輸出特征圖中第i個像素的坐標(biāo)點(diǎn)的輸出像素值,W表示輸入特征圖的寬,H表示輸入特征圖的高,C表示輸入特征圖的通道數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中科技大學(xué),未經(jīng)華中科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710538785.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





