[發明專利]一種基于多模態特征融合的證照分類方法及系統在審
| 申請號: | 202210757445.9 | 申請日: | 2022-06-29 |
| 公開(公告)號: | CN115115883A | 公開(公告)日: | 2022-09-27 |
| 發明(設計)人: | 金耀輝;邱健;王晴晴 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/762;G06V10/80;G06N3/04;G06N3/08 |
| 代理公司: | 上海恒慧知識產權代理事務所(特殊普通合伙) 31317 | 代理人: | 張寧展 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 特征 融合 證照 分類 方法 系統 | ||
1.一種基于多模態特征融合的證照分類方法,其特征在于,包括:
多模態特征提取,提取證照圖像整體版面視覺特征、文本內容信息和文本位置塊信息,并輸出版面視覺特征向量和文本內容信息,以及文本塊位置坐標信息;
文本重構,根據不同文本塊位置坐標的距離關系,將文本塊內容根據文本塊位置信息進行重構,得到重構后的長本文;
訓練語音模型,根據所述的重構后的長文本作為數據集,訓練得到適應證照圖像中獨有的文本語義的語言模型;
長文本向量表征,根據所述訓練得到的語言模型,將長文本轉化為固定長度的特征表示;
多模態特征融合,對版面視覺特征和長文本特征,做張量外積,顯性表征單模態,雙模態相互作用,得到新的多維特征向量;
利用卷積神網絡對所述的多維特征向量進行計算與分類,得到細粒度證照分類結果。
2.根據權利要求1所述的基于多模態特征融合的證照分類方法,其特征在于,具體是:
利用卷積神經網絡提取整個證照圖像版面視覺特征信息,得到版面視覺特征向量;
利用光學字符識別模型提取圖像中的證照文本信息,包括文本內容信息和文本塊位置坐標信息;
所述文本塊位置坐標之間的距離關系如下:
其中i,j分別表示不同文本塊,若dij小于預先設定的閾值θ,則判斷文本塊內文本內容相關,然后將文字內容信息根據對應文本塊坐標位置關系進行重構,公式如下:
tij=ti+tj
其中ti,tj為第i,j個文本塊文本內容,從而將具有鍵值對關系的文本聚合為長文本信息;
根據所獲的重構后的證照長文本信息,作為訓練數據集,結合文本語義表達,訓練得到符合證照中語義表達的語言模型;
利用訓練好的語言模型,將所述重構長文本信息編碼成固定長度的文本特征向量。
3.根據權利要求1所述的基于多模態特征融合的證照分類方法,其特征在于,所述根據所述的版面視覺特征向量和長文本特征向量進行多模態特征融合,獲取多模態融合的多維特征向量,具體是:
對所述的視覺特征向量A和文本特征向量B,用1擴充一維后,進行張量外積,得到多模態融合的多維特征向量C,公式如下:
4.根據權利要求1所述的基于多模態特征融合的證照分類方法,其特征在于,所述利用卷積神網絡對所述的多維特征向量進行計算與分類,得到細粒度證照分類結果,具體是:將所述的多維特征向量輸入卷積神經網絡,構建分類網絡;
根據空間中的不同映射結果聚類,對應不同的證照類別,得到證照分類結果。
5.一種基于多模態特征融合的證照分類系統,其特征在于,包括:
多模態特征提取模塊,用于獲取證照圖像整體版面視覺特征、文本內容信息和文本位置塊信息,并輸出視覺特征向量和文本內容信息,以及文本塊位置坐標信息;
文本重構模塊,根據不同文本塊位置坐標的距離關系,將文本塊內容根據文本塊位置信息進行重構,得到重構后的長本文;
語言模型訓練模塊,利用獲取的重構后長文本,用于訓練證照圖像中獨有的文本語義的語言模型;
長文本信息特征向量表示模塊,利用訓練得到的語言模型將重構后的長文本,轉化成固定長度的特征表示;
張量外積計算模塊,將視覺特征向量和長文本特征向量做張量外積,顯性表示單模態和雙模態相互作用,得到特征融合后的多維特征向量;
多模態特征信息融合判斷模塊,通過卷積神經網絡,進一步得到更多特征表征,對得到的融合后多維特征向量進行信息判斷,分類得到需要判斷的細粒度證照類型。
6.根據權利要求5所述的基于多模態特征融合的證照分類系統,其特征在于,還包括如下任一項或任意多項:
-所述多模態特征提取模塊和文本重構模塊相連,得到版面視覺特征向量和重構后具有鍵值對關系的長文本信息;
-所述文本重構模塊和語言模型訓練模塊相連,根據所獲的重構后的證照長文本信息,作為訓練數據集,結合文本語義表達,訓練得到符合證照中語義表達的語言模型;
-所述語言模型訓練模塊和長文本信息特征向量表示模塊相連,將訓練得到的訓練好的適應證照圖像文本語義表達的語言模型,用于將重構后長文本轉化為固定長度的特征表示;
-所述多模態特征提取模塊、長文本信息特征向量表示模塊與張量外積計算模塊相連,將版面視覺特征向量和長文本特征向量做張量外積,顯性表示單模態,雙模態相互作用,得到特征融合后的多維特征向量;
-所述張量外積計算模塊與多模態特征信息融合判斷模塊相連,將得到的多維特征向量輸入卷積神經網絡做進一步處理,根據空間中的不同映射結果聚類,對多模態特征進行判斷分類,得到細粒度證照分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210757445.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種帷幕滲漏檢測快速分析方法
- 下一篇:一種道路施工用地質勘探采樣裝置





