[發明專利]雙向表征自主迭代網絡下高表征遷移的中文圖像識別方法在審
| 申請號: | 202210267314.2 | 申請日: | 2022-03-18 |
| 公開(公告)號: | CN114581912A | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 利節;吳仙海;張祥;顏定江;吳瑞;杜忠凱;覃銳;黃曉薇 | 申請(專利權)人: | 重慶科技學院 |
| 主分類號: | G06V30/10 | 分類號: | G06V30/10;G06V10/20;G06N3/04;G06N3/08 |
| 代理公司: | 重慶敏創專利代理事務所(普通合伙) 50253 | 代理人: | 黃梅 |
| 地址: | 401331 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 雙向 表征 自主 網絡 遷移 中文 圖像 識別 方法 | ||
1.雙向表征自主迭代網絡下高表征遷移的中文圖像識別方法,其特征在于,包括步驟:
S1、采集不同自然場景下的英文圖片和中文圖片進行預處理后,得到對應的英文圖片數據集和中文圖片數據集,并對英文圖片數據集和中文圖片數據集進行文本提取,得到對應的英文文本數據集和中文文本數據集;
S2、采用英文圖片數據集及英文文本數據集對構建的雙向表征自主迭代網絡進行訓練,訓練完成后得到英文視覺特征、英文語義特征以及特征權重參數矩陣;
S3、通過遷移模塊將特征權重參數矩陣遷移至中文識別網絡模型,采用特征權重參數矩陣對構建的中文識別網絡模型的網絡參數進行初始化;
S4、采用中文圖片數據集及中文文本數據集、英文視覺特征、英文語義特征對初始化后的中文識別網絡模型進行訓練。
2.根據權利要求1所述的雙向表征自主迭代網絡下高表征遷移的中文圖像識別方法,其特征在于:在步驟S2中,雙向表征自主迭代網絡包括視覺模塊、語義模塊和融合模塊;
視覺模塊用于提取英文圖片數據集的英文視覺特征FV;
語義模塊用于提取英文文本數據集的英文語義特征FL;
融合模塊用于對英文視覺特征FV和英文語義特征FL進行融合后采用Softmax函數進行歸一化,其中融合后的特征為:
G=σ([FV,FL]Wf)
其中,σ(·)表示使FV和FL的矩陣保持一致的函數,表示FV和FL的權重參數,T表示字符序列的長度,C是特征維數,R表示實數域。
3.根據權利要求2所述的雙向表征自主迭代網絡下高表征遷移的中文圖像識別方法,其特征在于:
視覺模塊具有N層卷積層,以對輸入的英文圖片數據集進行N次卷積,每次卷積后輸出對應的英文視覺特征;
語義模塊具有N層卷積層,以對輸入的英文文本數據集進行N次卷積,每次卷積后輸出對應的英文語義特征;
在訓練過程中,通過迭代原理重新細化視覺模塊和語義模塊的預測,其中的錯誤預測作為噪聲進行處理,通過反復將語義模塊的輸出作為全新的數據輸入視覺模塊、視覺模塊重新執行以矯正視覺模塊的預測效果;視覺模塊執行第n次卷積后輸出第n層英文視覺特征,語義模塊執行第n次卷積后輸出第n層英文語義特征;融合模塊對第n層英文視覺特征和第n層英文語義特征進行融合后采用Softmax函數進行歸一化得到第n層特征權重參數矩陣,n=1,2,…,N,N≥3。
4.根據權利要求2或3所述的雙向表征自主迭代網絡下高表征遷移的中文圖像識別方法,其特征在于,英文視覺特征FV表示為:
其中,ρ(·)表示用于向視覺模塊輸入圖像x的圖像處理函數,Γ(·)表示由主干網絡ResNet和注意力模塊組合作用的特征提取函數,H、W是英文圖片數據集中任一圖片的高和寬,R表示實數域。
5.根據權利要求4所述的雙向表征自主迭代網絡下高表征遷移的中文圖像識別方法,其特征在于,雙向表征自主迭代網絡基于提取的英文視覺特征FV通過Softmax函數輸出英文視覺預測結果,表示為:
其中,softmax(·)表示softmax函數,是英文圖片中字符序列的位置編碼,由相比U-Net規模更小的微型U-Net2實現,H、W是英文圖片數據集中任一圖片的高和寬,是身份映射函數。
6.根據權利要求5所述的雙向表征自主迭代網絡下高表征遷移的中文圖像識別方法,其特征在于,視覺模塊和語義模塊采用的損失函數均為:
其中,表示視覺模塊的損失,表示語義模塊的損失,表示融合模塊的損失,均采用交叉熵損失函數,i代表第i次迭代,λl和λv是對應的平衡因子,M表示迭代總次數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶科技學院,未經重慶科技學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210267314.2/1.html,轉載請聲明來源鉆瓜專利網。





