[發明專利]基于融合注意力網絡的多模態情感識別方法有效
| 申請號: | 201910324053.1 | 申請日: | 2019-04-22 |
| 公開(公告)號: | CN110188343B | 公開(公告)日: | 2023-01-31 |
| 發明(設計)人: | 宦若虹;鮑晟霖;葛羅棋;謝超杰 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06V10/764;G06V10/80 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 融合 注意力 網絡 多模態 情感 識別 方法 | ||
1.一種基于融合注意力網絡的多模態情感識別方法,其特征在于:所述方法包括以下步驟:
步驟1,提取文本、視覺和音頻三個模態的高維特征;
步驟2,將視覺和音頻模態的高維特征與文本模態的高維特征按字級對齊,并對文本、視覺和音頻三個模態的高維特征進行歸一化處理;
步驟3,將字級對齊和歸一化處理后的文本、視覺和音頻三個模態的高維特征分別輸入至雙向門控循環單元網絡進行訓練;
步驟4,提取三個單模態子網絡中的雙向門控循環單元網絡輸出的狀態信息和其中,是文本模態子網絡中雙向門控循環單元網絡在i時刻輸出的狀態信息,包含了i時刻的前向狀態輸出和后向狀態輸出是視覺模態子網絡中雙向門控循環單元網絡在i時刻輸出的狀態信息,包含了i時刻的前向狀態輸出和后向狀態輸出是音頻模態子網絡中雙向門控循環單元網絡在i時刻輸出的狀態信息,包含了i時刻的前向狀態輸出和后向狀態輸出
步驟5,計算多模態間狀態信息的相關度si,如式(1)所示:
其中是文本模態子網絡中雙向門控循環單元網絡在i時刻輸出的狀態信息,Wt是與相關的權重參數,是視覺模態子網絡中雙向門控循環單元網絡在i時刻輸出的狀態信息,Wv是與相關的權重參數,是音頻模態子網絡中雙向門控循環單元網絡在i時刻輸出的狀態信息,Wa是與相關的權重參數,b1是與和相關的偏差,tanh是激活函數,V是多模態融合的權重參數,b2是多模態融合的偏差;
步驟6,根據多模態間狀態信息的相關度si,計算出多個模態每一時刻的注意力分布,即在i時刻的狀態信息的權重參數αi,權重參數αi計算如式(2)所示:
其中softmax是歸一化指數函數,exp是指數函數,Tl為意見發言視頻中的單詞數;
步驟7,三個模態雙向門控循環單元網絡輸出的狀態信息和對應的權重參數αi進行加權平均計算得到融合特征向量H*作為下一層全連接網絡的輸入特征,融合特征向量H*計算如式(3)所示:
其中,Tl為意見發言視頻中的單詞數,是文本模態子網絡中雙向門控循環單元網絡在i時刻輸出的狀態信息,是視覺模態子網絡中雙向門控循環單元網絡在i時刻輸出的狀態信息,是音頻模態子網絡中雙向門控循環單元網絡在i時刻輸出的狀態信息;
步驟8,將待識別的文本、視覺和音頻輸入訓練后的各個模態的雙向門控循環單元網絡,得到最終的情感強度輸出。
2.如權利要求1所述的基于融合注意力網絡的多模態情感識別方法,其特征在于:所述步驟1的過程為:提取文本特征為其中Tl是意見發言視頻中的單詞數,lt表示300維Glove單詞嵌入向量特征;使用FACET面部表情分析框架提取FACET視覺特征為其中,Tv是視頻的總幀數,在第j幀提取的p個視覺特征為使用COVAREP聲學分析框架提取COVAREP音頻特征為其中,Ta是音頻的分段幀數,在第j幀提取的q個聲學特征為
3.如權利要求1或2所述的基于融合注意力網絡的多模態情感識別方法,其特征在于:所述步驟2的過程為:文本模態提取的Glove特征的維度是(Tl,300),視頻模態提取的FACET特征的維度是(Tv,p),音頻模態提取的COVAREP特征的維度是(Ta,q),其中,Tl是意見發言視頻中的單詞數,Tv是視頻的總幀數,p為視覺特征個數,Ta是音頻的分段幀數,q為聲學特征個數,將視頻和音頻模態的高維特征分別與文本模態的Glove特征按照每個意見發言分段Tl個單詞進行對齊,記錄第i個單詞發言的開始時間和結束時間,分別從視覺和音頻模態中提取該段時間中所有幀的高維特征,根據這段時間里每個模態的采樣總數得到每個模態的平均特征作為對應模態的高維特征;此時文本、視覺和音頻三個模態的高維特征已對齊,定義三個模態高維特征的個數都為對齊前文本模態的高維特征個數Tl,即文本高維特征維度為(Tl,300),視覺高維特征維度為(Tl,p),音頻高維特征的維度是(Tl,q);對文本、視覺和音頻三個模態的高維特征進行歸一化處理,歸一化處理為分別找到三個模態高維特征的最大值,三個模態的高維特征分別除以該模態下特征的最大值,將特征數據映射到0到1范圍之內的小數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910324053.1/1.html,轉載請聲明來源鉆瓜專利網。





