[發(fā)明專(zhuān)利]一種基于多尺度特征的場(chǎng)景文本識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010841752.6 | 申請(qǐng)日: | 2020-08-20 |
| 公開(kāi)(公告)號(hào): | CN111967471A | 公開(kāi)(公告)日: | 2020-11-20 |
| 發(fā)明(設(shè)計(jì))人: | 張家鑫;金連文;羅燦杰;王天瑋;李子彥;周偉英 | 申請(qǐng)(專(zhuān)利權(quán))人: | 華南理工大學(xué);華南理工大學(xué)珠海現(xiàn)代產(chǎn)業(yè)創(chuàng)新研究院 |
| 主分類(lèi)號(hào): | G06K9/32 | 分類(lèi)號(hào): | G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京東方盛凡知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11562 | 代理人: | 張換君 |
| 地址: | 510640 *** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 尺度 特征 場(chǎng)景 文本 識(shí)別 方法 | ||
1.一種基于多尺度特征的場(chǎng)景文本識(shí)別方法,其特征在于,包括如下步驟:
獲取場(chǎng)景文本圖像數(shù)據(jù)集,并對(duì)所述場(chǎng)景文本圖像數(shù)據(jù)集中的圖像數(shù)據(jù)進(jìn)行尺寸調(diào)整;
構(gòu)建文本識(shí)別模型,并利用尺寸調(diào)整后的場(chǎng)景文本圖像數(shù)據(jù)集對(duì)所述文本識(shí)別模型進(jìn)行訓(xùn)練;所述文本識(shí)別模型包括多尺度特征編碼模塊、多層注意力機(jī)制解碼模塊;所述多尺度特征編碼模塊用于獲取若干個(gè)尺度的字符特征,所述多層注意力機(jī)制解碼模塊聯(lián)合二維注意力機(jī)制和一維注意力機(jī)制對(duì)若干個(gè)尺度的字符特征進(jìn)行融合,得到場(chǎng)景文本中的字符識(shí)別結(jié)果;
采集待識(shí)別場(chǎng)景文本圖像,將場(chǎng)景文本圖像調(diào)整到統(tǒng)一尺寸后輸入訓(xùn)練好的文本識(shí)別模型,完成場(chǎng)景文本中多尺度字符的識(shí)別。
2.根據(jù)權(quán)利要求1所述的基于多尺度特征的場(chǎng)景文本識(shí)別方法,其特征在于,對(duì)所述場(chǎng)景文本圖像數(shù)據(jù)集中的圖像數(shù)據(jù)進(jìn)行尺寸調(diào)整的方法包括:
采用雙線性插值或下采樣方法,將所述場(chǎng)景文本圖像數(shù)據(jù)集中的所有圖像數(shù)據(jù)調(diào)整到統(tǒng)一尺寸。
3.根據(jù)權(quán)利要求1所述的基于多尺度特征的場(chǎng)景文本識(shí)別方法,其特征在于,所述多尺度特征編碼模塊包括輸入層、卷積層、若干個(gè)殘差層,下采樣層、BLSTM,所述輸入層、卷積層、若干個(gè)殘差層、下采樣層、BLSTM依次連接;所述下采樣層用于將二維特征下采樣至一維特征,并將所述一維特征輸入至所述BLSTM;所述BLSTM用于對(duì)所述一維特征進(jìn)行水平特征關(guān)系的建模,所述BLSTM的輸出與所述多尺度特征編碼模塊若干個(gè)尺度的輸出相連接。
4.根據(jù)權(quán)利要求3所述的基于多尺度特征的場(chǎng)景文本識(shí)別方法,其特征在于,所述殘差層的網(wǎng)絡(luò)結(jié)構(gòu)包括卷積層、批標(biāo)準(zhǔn)化層、非線性層、下采樣層;所述非線性層采用ReLU激活函數(shù)。
5.根據(jù)權(quán)利要求1所述的基于多尺度特征的場(chǎng)景文本識(shí)別方法,其特征在于,所述一維注意力機(jī)制包括GRU,所述多層注意力機(jī)制解碼模塊聯(lián)合二維注意力機(jī)制和一維注意力機(jī)制對(duì)若干個(gè)尺度的字符特征進(jìn)行融合的具體方法包括:
在二維注意力機(jī)制下,對(duì)齊字符特征與所述字符特征對(duì)應(yīng)的目標(biāo)輸出,未對(duì)齊部分作為噪聲丟棄,得到當(dāng)前尺度特征所對(duì)應(yīng)的字符特征向量;
在一維注意力機(jī)制下,對(duì)若干個(gè)尺度的字符特征進(jìn)行融合,得到多尺度特征融合后的字符特征;
通過(guò)GRU對(duì)多尺度特征融合后的字符特征進(jìn)行解碼,得到場(chǎng)景文本中的字符識(shí)別結(jié)果。
6.根據(jù)權(quán)利要求1所述的基于多尺度特征的場(chǎng)景文本識(shí)別方法,其特征在于,所述文本識(shí)別模型采用雙向解碼機(jī)制,即,所述文本識(shí)別模型包括一個(gè)從左向右識(shí)別的多層注意力機(jī)制解碼模塊和一個(gè)從右向左的多層注意力機(jī)制解碼模塊。
7.根據(jù)權(quán)利要求1所述的基于多尺度特征的場(chǎng)景文本識(shí)別方法,其特征在于,利用尺寸調(diào)整后的場(chǎng)景文本圖像數(shù)據(jù)集對(duì)所述文本識(shí)別模型進(jìn)行訓(xùn)練的具體方法包括:
將尺寸調(diào)整后的場(chǎng)景文本圖像數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,其中,部分測(cè)試集中的場(chǎng)景文本圖像數(shù)據(jù)帶有詞典;
對(duì)訓(xùn)練集中的場(chǎng)景文本圖像數(shù)據(jù)進(jìn)行標(biāo)注,并通過(guò)標(biāo)注好的訓(xùn)練集對(duì)所述文本識(shí)別模型進(jìn)行訓(xùn)練;
通過(guò)所述測(cè)試集對(duì)所述文本識(shí)別模型進(jìn)行準(zhǔn)確性驗(yàn)證,同時(shí),通過(guò)帶有詞典的所述測(cè)試集對(duì)所述文本識(shí)別模型進(jìn)行糾錯(cuò)。
8.根據(jù)權(quán)利要求7所述的基于多尺度特征的場(chǎng)景文本識(shí)別方法,其特征在于,通過(guò)帶有詞典的所述測(cè)試集對(duì)所述文本識(shí)別模型進(jìn)行糾錯(cuò)的具體方法包括:
計(jì)算所述文本識(shí)別模型預(yù)測(cè)的字符串與所述詞典中相應(yīng)字符串的編輯距離,將編輯距離最小的字符串作為最后的預(yù)測(cè)結(jié)果,完成所述文本識(shí)別模型的糾錯(cuò)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于華南理工大學(xué);華南理工大學(xué)珠海現(xiàn)代產(chǎn)業(yè)創(chuàng)新研究院,未經(jīng)華南理工大學(xué);華南理工大學(xué)珠海現(xiàn)代產(chǎn)業(yè)創(chuàng)新研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010841752.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 電視場(chǎng)景切換的方法及電視
- 視頻場(chǎng)景控制系統(tǒng)及方法
- 場(chǎng)景開(kāi)關(guān)及其場(chǎng)景開(kāi)關(guān)構(gòu)件和場(chǎng)景圖標(biāo)卡組件
- 場(chǎng)景聯(lián)動(dòng)方法及場(chǎng)景聯(lián)動(dòng)系統(tǒng)
- 一種視頻場(chǎng)景分類(lèi)方法、裝置、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種Unity3D引擎的場(chǎng)景切換方法和系統(tǒng)
- 一種自動(dòng)駕駛場(chǎng)景分類(lèi)識(shí)別系統(tǒng)及方法
- 一種虛擬場(chǎng)景生成方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種汽車(chē)圖像場(chǎng)景庫(kù)數(shù)據(jù)復(fù)雜度度量方法
- 場(chǎng)景識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





