[發(fā)明專(zhuān)利]一種基于多尺度特征的場(chǎng)景文本識(shí)別方法在審

申請(qǐng)?zhí)枺?/td>	202010841752.6	申請(qǐng)日：	2020-08-20
公開(kāi)（公告）號(hào)：	CN111967471A	公開(kāi)（公告）日：	2020-11-20
發(fā)明（設(shè)計(jì)）人：	張家鑫;金連文;羅燦杰;王天瑋;李子彥;周偉英	申請(qǐng)（專(zhuān)利權(quán)）人：	華南理工大學(xué);華南理工大學(xué)珠海現(xiàn)代產(chǎn)業(yè)創(chuàng)新研究院
主分類(lèi)號(hào)：	G06K9/32	分類(lèi)號(hào)：	G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京東方盛凡知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11562	代理人：	張換君
地址：	510640 ***	國(guó)省代碼：	廣東;44
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于尺度特征場(chǎng)景文本識(shí)別方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專(zhuān)利詞庫(kù) 專(zhuān)利權(quán)人專(zhuān)利榜在售專(zhuān)利公布日期熱門(mén)專(zhuān)利

【權(quán)利要求書(shū)】：

1.一種基于多尺度特征的場(chǎng)景文本識(shí)別方法，其特征在于，包括如下步驟：

獲取場(chǎng)景文本圖像數(shù)據(jù)集，并對(duì)所述場(chǎng)景文本圖像數(shù)據(jù)集中的圖像數(shù)據(jù)進(jìn)行尺寸調(diào)整；

構(gòu)建文本識(shí)別模型，并利用尺寸調(diào)整后的場(chǎng)景文本圖像數(shù)據(jù)集對(duì)所述文本識(shí)別模型進(jìn)行訓(xùn)練；所述文本識(shí)別模型包括多尺度特征編碼模塊、多層注意力機(jī)制解碼模塊；所述多尺度特征編碼模塊用于獲取若干個(gè)尺度的字符特征，所述多層注意力機(jī)制解碼模塊聯(lián)合二維注意力機(jī)制和一維注意力機(jī)制對(duì)若干個(gè)尺度的字符特征進(jìn)行融合，得到場(chǎng)景文本中的字符識(shí)別結(jié)果；

采集待識(shí)別場(chǎng)景文本圖像，將場(chǎng)景文本圖像調(diào)整到統(tǒng)一尺寸后輸入訓(xùn)練好的文本識(shí)別模型，完成場(chǎng)景文本中多尺度字符的識(shí)別。

2.根據(jù)權(quán)利要求1所述的基于多尺度特征的場(chǎng)景文本識(shí)別方法，其特征在于，對(duì)所述場(chǎng)景文本圖像數(shù)據(jù)集中的圖像數(shù)據(jù)進(jìn)行尺寸調(diào)整的方法包括：

采用雙線性插值或下采樣方法，將所述場(chǎng)景文本圖像數(shù)據(jù)集中的所有圖像數(shù)據(jù)調(diào)整到統(tǒng)一尺寸。

3.根據(jù)權(quán)利要求1所述的基于多尺度特征的場(chǎng)景文本識(shí)別方法，其特征在于，所述多尺度特征編碼模塊包括輸入層、卷積層、若干個(gè)殘差層，下采樣層、BLSTM，所述輸入層、卷積層、若干個(gè)殘差層、下采樣層、BLSTM依次連接；所述下采樣層用于將二維特征下采樣至一維特征，并將所述一維特征輸入至所述BLSTM；所述BLSTM用于對(duì)所述一維特征進(jìn)行水平特征關(guān)系的建模，所述BLSTM的輸出與所述多尺度特征編碼模塊若干個(gè)尺度的輸出相連接。

4.根據(jù)權(quán)利要求3所述的基于多尺度特征的場(chǎng)景文本識(shí)別方法，其特征在于，所述殘差層的網(wǎng)絡(luò)結(jié)構(gòu)包括卷積層、批標(biāo)準(zhǔn)化層、非線性層、下采樣層；所述非線性層采用ReLU激活函數(shù)。

5.根據(jù)權(quán)利要求1所述的基于多尺度特征的場(chǎng)景文本識(shí)別方法，其特征在于，所述一維注意力機(jī)制包括GRU，所述多層注意力機(jī)制解碼模塊聯(lián)合二維注意力機(jī)制和一維注意力機(jī)制對(duì)若干個(gè)尺度的字符特征進(jìn)行融合的具體方法包括：

在二維注意力機(jī)制下，對(duì)齊字符特征與所述字符特征對(duì)應(yīng)的目標(biāo)輸出，未對(duì)齊部分作為噪聲丟棄，得到當(dāng)前尺度特征所對(duì)應(yīng)的字符特征向量；

在一維注意力機(jī)制下，對(duì)若干個(gè)尺度的字符特征進(jìn)行融合，得到多尺度特征融合后的字符特征；

通過(guò)GRU對(duì)多尺度特征融合后的字符特征進(jìn)行解碼，得到場(chǎng)景文本中的字符識(shí)別結(jié)果。

6.根據(jù)權(quán)利要求1所述的基于多尺度特征的場(chǎng)景文本識(shí)別方法，其特征在于，所述文本識(shí)別模型采用雙向解碼機(jī)制，即，所述文本識(shí)別模型包括一個(gè)從左向右識(shí)別的多層注意力機(jī)制解碼模塊和一個(gè)從右向左的多層注意力機(jī)制解碼模塊。

7.根據(jù)權(quán)利要求1所述的基于多尺度特征的場(chǎng)景文本識(shí)別方法，其特征在于，利用尺寸調(diào)整后的場(chǎng)景文本圖像數(shù)據(jù)集對(duì)所述文本識(shí)別模型進(jìn)行訓(xùn)練的具體方法包括：

將尺寸調(diào)整后的場(chǎng)景文本圖像數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集，其中，部分測(cè)試集中的場(chǎng)景文本圖像數(shù)據(jù)帶有詞典；

對(duì)訓(xùn)練集中的場(chǎng)景文本圖像數(shù)據(jù)進(jìn)行標(biāo)注，并通過(guò)標(biāo)注好的訓(xùn)練集對(duì)所述文本識(shí)別模型進(jìn)行訓(xùn)練；

通過(guò)所述測(cè)試集對(duì)所述文本識(shí)別模型進(jìn)行準(zhǔn)確性驗(yàn)證，同時(shí)，通過(guò)帶有詞典的所述測(cè)試集對(duì)所述文本識(shí)別模型進(jìn)行糾錯(cuò)。

8.根據(jù)權(quán)利要求7所述的基于多尺度特征的場(chǎng)景文本識(shí)別方法，其特征在于，通過(guò)帶有詞典的所述測(cè)試集對(duì)所述文本識(shí)別模型進(jìn)行糾錯(cuò)的具體方法包括：

計(jì)算所述文本識(shí)別模型預(yù)測(cè)的字符串與所述詞典中相應(yīng)字符串的編輯距離，將編輯距離最小的字符串作為最后的預(yù)測(cè)結(jié)果，完成所述文本識(shí)別模型的糾錯(cuò)。

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于華南理工大學(xué);華南理工大學(xué)珠海現(xiàn)代產(chǎn)業(yè)創(chuàng)新研究院，未經(jīng)華南理工大學(xué);華南理工大學(xué)珠海現(xiàn)代產(chǎn)業(yè)創(chuàng)新研究院許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010841752.6/1.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

上一篇：一種基于解耦注意力機(jī)制的文本識(shí)別方法及系統(tǒng)
下一篇：一種治療斑禿的中藥配方

同類(lèi)專(zhuān)利

專(zhuān)利分類(lèi)

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06K 數(shù)據(jù)識(shí)別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形，例如，指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正，例如，用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的，例如，由不同形狀的各個(gè)筆畫(huà)組成的，而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理，即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專(zhuān)利文獻(xiàn)下載

說(shuō)明：

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū)；

2、支持發(fā)明專(zhuān)利、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利（升級(jí)中）；

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】