[發明專利]基于多模態交互融合網絡的圖文情感分析方法及系統有效
| 申請號: | 202110412323.1 | 申請日: | 2021-04-16 |
| 公開(公告)號: | CN113158875B | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 甘臣權;馮慶東;付祥;張祖凡 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06V30/413 | 分類號: | G06V30/413;G06V30/19;G06V10/80;G06V10/82;G06N3/04;G06N3/08;G06F40/284 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多模態 交互 融合 網絡 圖文 情感 分析 方法 系統 | ||
1.一種基于多模態交互融合網絡的圖文情感分析方法,其特征在于:包括以下步驟:
步驟一:對圖文進行預處理,分離出文本和圖像,并采用詞嵌入技術處理文本,采用圖像處理技術處理圖像;
步驟二:使用空洞卷積神經網絡、雙向長短時記憶網絡和注意力機制構建文本特征提取模塊,使用深度卷積網絡構建視覺特征提取模塊;
步驟三:設計面向圖文的多模態交互融合網絡,并采用多個具有不同神經元的多模態交互融合網絡建模不同粒度的圖文相關性;所述設計面向圖文的多模態交互融合網絡,具體包括以下步驟:
對于文本特征T和視覺特征P,通過多模態交互融合網絡獲取交互后的圖文特征X;
S301:通過輸入門的門控機制控制文本特征和視覺特征中的相關信息參與特征交互,具體公式如下:
iT=σ(TWiT+biT)
iP=σ(PWiP+biP)
式中,σ(·)代表Sigmoid激活函數,Wr、br代表可訓練權重和偏置,通過iT和iP確定文本特征和視覺特征中哪些相關信息將參與特征交互過程;
S302:將文本特征T和視覺特征P映射到輸入空間,具體如下:
eT=TWeT+beT
eP=PWeP+beP
式中,Wr、br代表可訓練權重和偏置,eT、eP代表輸入空間中的文本特征和視覺特征
S303:得到文本特征和視覺特征中的有效交互信息:
e'T=eT*iT
e'P=eP*iP
式中,e'T和e'P分別代表有效文本交互特征和有效視覺交互特征;
S304:將文本特征和視覺特征,以及有效的文本交互特征和視覺交互特征,輸入到交互空間中,通過余弦相似度計算不同模態特征之間的相關性:
式中,αp2t代表視覺特征與文本特征的相似性,αt2p代表文本特征與視覺特征的相似性;
S305:將輸入的文本特征和視覺特征映射到輸出空間,計算備選的輸出特征:
式中,和表示輸出空間中的備選文本特征和備選視覺特征,和表示可訓練權重,和表示可訓練偏置;
S306:根據有效交互特征得到注意力加權向量,用于去除輸出特征中的冗余信息:
AT=softmax(e'T)
AP=softmax(e'P)
S307:根據以上信息建模特征之間的互補性和一致性,并得到有效特征和互補特征,輸出空間中交互后的特征表示為:
式中,CT和CP代表輸出空間中交互后的文本和視覺特征;
S308:通過輸出門的門控機制確定輸出哪些圖文信息,并建模特征之間的差異性,以消除特征中的冗余信息:
OT=σ(TWoT+boT)
OP=σ(PWoP+boP)
式中,OT和OP代表多模態交互融合模塊,WoT和WoP表示可訓練權重,boT和boP表示可訓練偏置;
S309:根據輸出門和輸出空間中的特征,可得到輸出特征:
T'=OT*tanh(CT)
P'=OP*tanh(CP)
式中,T'和P'為輸出的文本特征和視覺特征;
S310:融合h個交互融合模塊的輸出并生成圖文特征:
式中,Wr代表可訓練權重,[,]代表串聯操作;
步驟四:融合不同粒度的圖文特征,并通過多層感知機獲取圖文情感傾向;
步驟五:使用交叉熵作為損失函數,并使用帶有熱啟動的Adam優化器訓練模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110412323.1/1.html,轉載請聲明來源鉆瓜專利網。





