[發(fā)明專利]一種基于多尺度特征提取的文本識別方法有效
| 申請?zhí)枺?/td> | 202110003584.8 | 申請日: | 2021-01-04 |
| 公開(公告)號: | CN112836702B | 公開(公告)日: | 2022-10-18 |
| 發(fā)明(設計)人: | 卜佳俊;鄧雅卿;顧靜軍 | 申請(專利權(quán))人: | 浙江大學 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06V10/26;G06V10/74;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 尺度 特征 提取 文本 識別 方法 | ||
1.一種基于多尺度特征提取的文本識別方法,包括下列步驟:
1)獲取可用于訓練的大型文本圖像數(shù)據(jù)集,其中包含文本圖片及其對應的文本標簽;文本圖片表示僅含文本內(nèi)容的圖片,可以通過已有的其它文本檢測模型定位文本內(nèi)容,再進行裁剪得到;
2)對數(shù)據(jù)集中的圖片進行訓練集和驗證集的劃分,在文本識別模型上進行多次訓練得到最優(yōu)模型;所述的文本識別模型,其具體網(wǎng)絡結(jié)構(gòu)描述如下:
21)首先定義網(wǎng)絡結(jié)構(gòu)中的多尺度特征提取基本塊;基本塊的整體組織結(jié)構(gòu)包括模塊①、模塊②、模塊③、模塊④、模塊⑤、模塊⑥、模塊⑦、模塊⑧、模塊⑨;詳細參數(shù)描述如下:模塊①選用大小為1的卷積核,設置步長為1,填充為0,輸出維度為64;模塊②選用大小為1的卷積核,設置步長為1,填充為0,輸出維度為48;模塊③選用大小為5的卷積核,設置步長為1,填充為2,輸出維度為64;模塊④選用大小為3的卷積核,設置步長為1,填充為1,輸出維度為64;模塊⑤和模塊⑥選用大小為3的卷積核,設置步長為1,填充為1,輸出維度為96;模塊⑦設定為范圍卷積核為3的池化層,設置步長為1,填充為1;模塊⑧選用大小為1的卷積核,設置步長為1,填充為1,輸出是多尺度特征提取基本塊的一個輸入?yún)?shù);模塊⑨選用大小為3的卷積核,設置步長為1,填充為0,輸出是多尺度特征提取基本塊的輸入?yún)?shù);對模塊①、③、⑥、⑧的輸出,在特征維度上進行拼接得到高維的語義特征,最后通過模塊⑨得到最終的輸出;
22)利用21)中提到的多尺度特征提取模塊,設計文本識別網(wǎng)絡特征提取層詳述如下:首先在輸入層后接入第一個多尺度特征提取模塊,指定輸出維度為64;然后接入一個模板大小為2的池化層,設置步長為2;然后接入第二個多尺度特征提取模塊,指定輸出維度為128;然后接入一個模板大小為2的池化層,設置步長為2;然后接入兩個多尺度特征提取模塊,都指定輸出維度為256;然后接入池化層,在寬度和高度方向上分別設定模板大小為1和2,并將步長也設置成對應值,填充分別為0和1;然后接入兩個多尺度特征提取模塊,都指定輸出維度為512;在特征提取階段的最后接入一個池化層,在寬度和高度方向上分別設定模板大小為2和4,并將步長也設置成對應值,填充分別為0和2;
23)利用22)中提到的文本識別網(wǎng)絡特征提取層,設計文本識別模型的總體架構(gòu)詳述如下:在22)所述的特征提取層后,接入兩個雙向的LSTM網(wǎng)絡層,同時設置該網(wǎng)絡層的隱層特征維度為256;雙向LSTM層的作用在于將圖像的視覺特征進行長短期記憶的聯(lián)系處理,該網(wǎng)絡層讀取圖像按寬度幀切分的特征序列,對不同幀特征之間的聯(lián)系進行建模,從而將輸入的圖像特征轉(zhuǎn)化為更高層的語義特征,并根據(jù)特征翻譯出每個幀內(nèi)不同字符對應的概率;
3)對步驟2)中定義的文本識別模型,選用CTC損失函數(shù)進行訓練;該損失函數(shù)的主要作用主要在于將LSTM層輸出的每個時刻的字符概率進行組合,以此可以將網(wǎng)絡的字符概率輸出和圖像的文本標簽進行對齊,從而將網(wǎng)絡各層結(jié)構(gòu)組織起來進行訓練;其中網(wǎng)絡的概率輸出有一個特殊字符類對應‘blank’,根據(jù)該類字符可以將網(wǎng)絡的概率輸出以不同的路徑組合方式對齊真實文本標簽;比如‘spe[blank]eed’和‘spee[blank]ed’都可以轉(zhuǎn)錄成‘speed’單詞;因此,最終網(wǎng)絡輸出當前單詞的概率,是對所有可以轉(zhuǎn)化為該單詞的路徑概率進行求和;計算CTC損失的主要步驟詳述如下:
單條路徑的概率為每個時刻對應字符的概率求和,如下公式所示:
其中s表示網(wǎng)絡對應的輸入,而w表示文本識別模型的輸出序列,wt表示時刻t對應w中第t個字符的概率;最后,對應的單詞概率為所有可以轉(zhuǎn)錄為該單詞的路徑概率和,表示為以下公式:
其中l(wèi)表示目標文本序列,根據(jù)以上概率公式可求得對應的網(wǎng)絡損失函數(shù)設定為概率的負對數(shù),表示為以下公式:
L=-ln pr(l|s) (3)
最后利用以上所述損失函數(shù),每次讀取batch張圖片,同時將讀取的圖片縮放到寬度為100像素,高度為32像素的大小,對網(wǎng)絡進行訓練;
4)將以上步驟訓練的模型應用到文本圖像識別場景中,對文本圖像的內(nèi)容進行識別;對含有多行文本的圖片可以選取現(xiàn)有文本檢測模型對圖像中的文本進行定位,裁剪出含有文本內(nèi)容的部分圖片,再使用本發(fā)明的文本識別模型對文本內(nèi)容進行識別。
2.如權(quán)利要求1所述的一種基于多尺度特征提取的文本識別方法,其特征在于:還包括步驟5)檢索圖像,具體包括:用戶通過輸入單個關(guān)鍵詞,和圖像中的文本內(nèi)容進行匹配;圖像檢索任務使用預訓練的NLP模型,該模型提取關(guān)鍵詞和文本單詞的高維特征;采用預訓練的NLP模型分別提取用戶輸入關(guān)鍵詞的語義特征和圖像中識別出的所有單詞的語義特征,再通過相似度度量方式如余弦相似度的評估方法,計算用戶輸入關(guān)鍵詞和所有圖像中的文本單詞的相似度平均值,該值對應關(guān)鍵詞和圖像之間的匹配程度;該相似度平均值可直接用于對圖像集合中的圖像進行匹配排序,選取和關(guān)鍵詞最為接近的K張圖像;也可用于和基于內(nèi)容的圖像檢索方法進行加權(quán)結(jié)合,作為相似度匹配的其中一個因素,
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學,未經(jīng)浙江大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110003584.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





