[發(fā)明專利]一種基于多尺度特征的場景文本識(shí)別方法在審
| 申請?zhí)枺?/td> | 202010841752.6 | 申請日: | 2020-08-20 |
| 公開(公告)號(hào): | CN111967471A | 公開(公告)日: | 2020-11-20 |
| 發(fā)明(設(shè)計(jì))人: | 張家鑫;金連文;羅燦杰;王天瑋;李子彥;周偉英 | 申請(專利權(quán))人: | 華南理工大學(xué);華南理工大學(xué)珠海現(xiàn)代產(chǎn)業(yè)創(chuàng)新研究院 |
| 主分類號(hào): | G06K9/32 | 分類號(hào): | G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京東方盛凡知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11562 | 代理人: | 張換君 |
| 地址: | 510640 *** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 尺度 特征 場景 文本 識(shí)別 方法 | ||
本發(fā)明公開一種基于多尺度特征的場景文本識(shí)別方法,包括:獲取場景文本圖像數(shù)據(jù)集,并對(duì)場景文本圖像數(shù)據(jù)集中的圖像數(shù)據(jù)進(jìn)行尺寸調(diào)整;構(gòu)建文本識(shí)別模型,并利用尺寸調(diào)整后的場景文本圖像數(shù)據(jù)集對(duì)文本識(shí)別模型進(jìn)行訓(xùn)練;文本識(shí)別模型包括多尺度特征編碼模塊、多層注意力機(jī)制解碼模塊;多尺度特征編碼模塊用于獲取若干個(gè)尺度的字符特征,多層注意力機(jī)制解碼模塊聯(lián)合二維注意力機(jī)制和一維注意力機(jī)制對(duì)若干個(gè)尺度的字符特征進(jìn)行融合,得到場景文本中的字符識(shí)別結(jié)果;采集待識(shí)別場景文本圖像,將場景文本圖像調(diào)整到統(tǒng)一尺寸后輸入訓(xùn)練好的文本識(shí)別模型,完成場景文本中多尺度字符的識(shí)別。本發(fā)明能夠?qū)鼍拔谋局械亩喑叨茸址M(jìn)行快速準(zhǔn)確識(shí)別。
技術(shù)領(lǐng)域
本發(fā)明涉及場景文本識(shí)別技術(shù)領(lǐng)域,特別是涉及一種基于多尺度特征的場景文本識(shí)別方法。
背景技術(shù)
近年來,隨著深度神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,大大推動(dòng)了人工智能技術(shù)的創(chuàng)新應(yīng)用。場景文本識(shí)別,作為人工智能技術(shù)的一部分,受到廣泛的關(guān)注。不同于掃描文檔中的光學(xué)字符識(shí)別,場景文本識(shí)別因文本字體多樣、分辨率低、易受光影變化影響等問題而十分具有挑戰(zhàn)性。目前主流的方案概括為,使用深層卷積神經(jīng)網(wǎng)絡(luò)提取圖像高階特征,使用循環(huán)神經(jīng)網(wǎng)絡(luò)關(guān)聯(lián)水平特征向量,最后使用CTC(Connectionist Temporal Classification,連接主義時(shí)間分類)或注意力機(jī)制進(jìn)行轉(zhuǎn)錄。針對(duì)于場景文本中不規(guī)則文本的情況,研究人員主要從文本糾正,背景噪聲,注意力機(jī)制漂移等方面來考慮,忽視了文本中的字符多尺度問題。字符多尺度問題,常常是伴隨著傾斜文本,彎曲文本以及字體風(fēng)格獨(dú)特文本出現(xiàn)的。由于目前的場景文本識(shí)別技術(shù)僅僅保留了深層卷積神經(jīng)網(wǎng)絡(luò)的最后一層輸出,其固定的且過大的感受野無法適應(yīng)文本中同時(shí)出現(xiàn)字符大小不同的情況,且在字符普遍較小的情況下,其過大的感受野甚至?xí)幸话胍陨下湓诒尘皡^(qū)域,嚴(yán)重影響識(shí)別器的性能。
因此,目前亟需一種能夠?qū)鲋形谋局械亩喑叨茸址M(jìn)行快速準(zhǔn)確識(shí)別的方法。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于多尺度特征的場景文本識(shí)別方法,以解決現(xiàn)有技術(shù)中存在的技術(shù)問題,能夠?qū)鼍拔谋局械亩喑叨茸址M(jìn)行快速準(zhǔn)確識(shí)別。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:本發(fā)明提供一種基于多尺度特征的場景文本識(shí)別方法,包括如下步驟:
獲取場景文本圖像數(shù)據(jù)集,并對(duì)所述場景文本圖像數(shù)據(jù)集中的圖像數(shù)據(jù)進(jìn)行尺寸調(diào)整;
構(gòu)建文本識(shí)別模型,并利用尺寸調(diào)整后的場景文本圖像數(shù)據(jù)集對(duì)所述文本識(shí)別模型進(jìn)行訓(xùn)練;所述文本識(shí)別模型包括多尺度特征編碼模塊、多層注意力機(jī)制解碼模塊;所述多尺度特征編碼模塊用于獲取若干個(gè)尺度的字符特征,所述多層注意力機(jī)制解碼模塊聯(lián)合二維注意力機(jī)制和一維注意力機(jī)制對(duì)若干個(gè)尺度的字符特征進(jìn)行融合,得到場景文本中的字符識(shí)別結(jié)果;
采集待識(shí)別場景文本圖像,將場景文本圖像調(diào)整到統(tǒng)一尺寸后輸入訓(xùn)練好的文本識(shí)別模型,完成場景文本中多尺度字符的識(shí)別。
優(yōu)選地,對(duì)所述場景文本圖像數(shù)據(jù)集中的圖像數(shù)據(jù)進(jìn)行尺寸調(diào)整的方法包括:
采用雙線性插值或下采樣方法,將所述場景文本圖像數(shù)據(jù)集中的所有圖像數(shù)據(jù)調(diào)整到統(tǒng)一尺寸。
優(yōu)選地,所述多尺度特征編碼模塊包括輸入層、卷積層、若干個(gè)殘差層,下采樣層、BLSTM,所述輸入層、卷積層、若干個(gè)殘差層、下采樣層、BLSTM依次連接;所述下采樣層用于將二維特征下采樣至一維特征,并將所述一維特征輸入至所述BLSTM;所述BLSTM用于對(duì)所述一維特征進(jìn)行水平特征關(guān)系的建模,所述BLSTM的輸出與所述多尺度特征編碼模塊若干個(gè)尺度的輸出相連接。
優(yōu)選地,所述殘差層的網(wǎng)絡(luò)結(jié)構(gòu)包括卷積層、批標(biāo)準(zhǔn)化層、非線性層、下采樣層;所述非線性層采用ReLU激活函數(shù)。
優(yōu)選地,所述一維注意力機(jī)制包括GRU,所述多層注意力機(jī)制解碼模塊聯(lián)合二維注意力機(jī)制和一維注意力機(jī)制對(duì)若干個(gè)尺度的字符特征進(jìn)行融合的具體方法包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué);華南理工大學(xué)珠海現(xiàn)代產(chǎn)業(yè)創(chuàng)新研究院,未經(jīng)華南理工大學(xué);華南理工大學(xué)珠海現(xiàn)代產(chǎn)業(yè)創(chuàng)新研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010841752.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 電視場景切換的方法及電視
- 視頻場景控制系統(tǒng)及方法
- 場景開關(guān)及其場景開關(guān)構(gòu)件和場景圖標(biāo)卡組件
- 場景聯(lián)動(dòng)方法及場景聯(lián)動(dòng)系統(tǒng)
- 一種視頻場景分類方法、裝置、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種Unity3D引擎的場景切換方法和系統(tǒng)
- 一種自動(dòng)駕駛場景分類識(shí)別系統(tǒng)及方法
- 一種虛擬場景生成方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種汽車圖像場景庫數(shù)據(jù)復(fù)雜度度量方法
- 場景識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





