[發(fā)明專利]一種基于多模態(tài)特征融合的證照分類方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202210757445.9 | 申請(qǐng)日: | 2022-06-29 |
| 公開(公告)號(hào): | CN115115883A | 公開(公告)日: | 2022-09-27 |
| 發(fā)明(設(shè)計(jì))人: | 金耀輝;邱健;王晴晴 | 申請(qǐng)(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號(hào): | G06V10/764 | 分類號(hào): | G06V10/764;G06V10/762;G06V10/80;G06N3/04;G06N3/08 |
| 代理公司: | 上海恒慧知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 31317 | 代理人: | 張寧展 |
| 地址: | 200240 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多模態(tài) 特征 融合 證照 分類 方法 系統(tǒng) | ||
本發(fā)明提供了一種基于多模態(tài)特征融合的證照分類方法及系統(tǒng),該方法充分考慮證照?qǐng)D像含有視覺特征、文本語(yǔ)義特征、文本位置特征等多模態(tài)信息的特點(diǎn),充分利用多模態(tài)信息,以及各個(gè)模態(tài)之間的相互關(guān)系,通過(guò)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)提取視覺特征,轉(zhuǎn)化成視覺特征向量;根據(jù)證照中獨(dú)特的文本信息訓(xùn)練語(yǔ)言模型,將證照?qǐng)D像中的文本轉(zhuǎn)化為文本信息向量,對(duì)得到的視覺特征向量和文本信息向量進(jìn)行多模態(tài)融合,既能保留原始單模態(tài)視覺特征和文本信息,同時(shí)也能利用兩種模態(tài)之間的相互作用,作為分類的依據(jù)。本發(fā)明不僅考慮證照?qǐng)D像的視覺特征,同時(shí)充分考慮文本信息,以及兩者之間的相互關(guān)系,從而使得分類結(jié)果達(dá)到較高的分類準(zhǔn)確度和更細(xì)粒度的類別劃分。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺和自然語(yǔ)言處理技術(shù)領(lǐng)域,具體地,涉及一種基于多模態(tài)特征融合的證照分類方法及系統(tǒng)。
背景技術(shù)
深度學(xué)習(xí)在計(jì)算機(jī)視覺以及自然語(yǔ)言處理兩個(gè)領(lǐng)域取得了巨大的成功,尤其是卷積神經(jīng)網(wǎng)絡(luò)。在此基礎(chǔ)上,多模態(tài)學(xué)習(xí)可以聚合多源數(shù)據(jù)的信息,使得模型學(xué)習(xí)到的表示更加完備,在充足的訓(xùn)練數(shù)據(jù)下,模態(tài)的種類越豐富,表征空間的估計(jì)越精確。
在證照分類問(wèn)題上,傳統(tǒng)的證照?qǐng)D像分類的處理方式包括使用規(guī)則機(jī)進(jìn)行分類,或者使用單一模態(tài)(僅視覺特征或僅文本信息)進(jìn)行分類,缺乏可伸縮性和通用性。如現(xiàn)有技術(shù)公開公開號(hào)CN111738251中證照?qǐng)D像本身作為特殊的圖像,本身含有豐富的多模態(tài)特征(視覺特征、文本信息、文本塊位置坐標(biāo)信息等)。同時(shí),證照本身同樣含有豐富的鍵值對(duì)關(guān)系,但是這種鍵值對(duì)關(guān)系在實(shí)際應(yīng)用場(chǎng)景中往往沒有得到利用不充分。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)中存在的上述不足,提供了一種基于多模態(tài)特征融合的證照分類方法及系統(tǒng),不僅僅考慮證照?qǐng)D像的視覺特征,同時(shí)充分考慮文本內(nèi)容信息、文本塊位置坐標(biāo)信息,從而使得分類結(jié)果達(dá)到較高的分類準(zhǔn)確度和更細(xì)粒度的類別劃分。
本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的。
本發(fā)明的一個(gè)方面,提供了一種基于多模態(tài)特征融合的證照分類方法,包括:
根據(jù)證照?qǐng)D像含有的多模態(tài)信息,將證照?qǐng)D像整個(gè)版面區(qū)域輸入卷積神經(jīng)網(wǎng)絡(luò),提取視覺特征,用版面視覺特征向量加以表征版面視覺模態(tài)信息;
根據(jù)證照?qǐng)D像含有的多模態(tài)信息,利用光學(xué)字符識(shí)別模型提取證照?qǐng)D像中的文本信息,包括:
提取證照?qǐng)D像中完整的文本內(nèi)容,定位文本塊的文本位置坐標(biāo)信息。
根據(jù)所述文本塊位置信息坐標(biāo)之間的距離關(guān)系,公式如下:
其中i,j分別表示不同文本塊,若dij小于預(yù)先設(shè)定的閾值θ,則判斷文本塊內(nèi)文本內(nèi)容相關(guān),然后將文字內(nèi)容信息根據(jù)對(duì)應(yīng)文本塊坐標(biāo)位置關(guān)系進(jìn)行重構(gòu),公式如下:
tij=ti+tj
其中ti,tj為第i,j個(gè)文本塊文本內(nèi)容,從而將具有鍵值對(duì)關(guān)系的文本聚合為長(zhǎng)文本信息;
根據(jù)所獲的重構(gòu)后的證照文本數(shù)據(jù)長(zhǎng)文本信息,作為訓(xùn)練數(shù)據(jù)集,結(jié)合文本語(yǔ)義表達(dá),訓(xùn)練得到符合證照中語(yǔ)義表達(dá)的語(yǔ)言模型;
利用訓(xùn)練好的語(yǔ)言模型,將所述重構(gòu)長(zhǎng)文本信息編碼成固定長(zhǎng)度的文本特征向量。
根據(jù)所得到的證照?qǐng)D像的版面視覺特征向量和長(zhǎng)文本特征向量,做張量外積,顯式的模擬單模態(tài),雙模態(tài)相互作用,得到新的多維特征向量;
將多維特征向量通過(guò)卷積神經(jīng)網(wǎng)絡(luò),對(duì)多模態(tài)特征融合后的特征向量信息進(jìn)行判斷,根據(jù)空間中的不同映射結(jié)果聚類,分類得到細(xì)粒度證照類型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210757445.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識(shí)別方法及裝置
- 一種基于多模態(tài)生成式對(duì)抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





