[發明專利]一種基于特征-時間注意力機制的多模態情感識別方法有效
| 申請號: | 202110135196.5 | 申請日: | 2021-02-01 |
| 公開(公告)號: | CN112784798B | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 李克;梁瑞宇;趙力;郭如雪 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V10/80;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 徐激波 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 時間 注意力 機制 多模態 情感 識別 方法 | ||
1.一種基于特征-時間注意力機制的多模態情感識別方法,其特征在于:包括以下步驟,
步驟1:構建情感識別網絡模型,獲取含有情感信息的音視頻樣本,對樣本中的視頻模態數據提取人臉灰度圖像并使用深度殘差網絡編碼為固定維度的特征向量得到視頻初級特征矩陣;
步驟2:對樣本中的音頻模態數據提取梅爾頻率倒譜系數,得到音頻初級特征矩陣;
步驟3:將視頻初級特征矩陣和音頻初級特征矩陣分別進行下采樣和幀級特征融合,得到融合特征矩陣,將融合特征矩陣輸入特征自注意力機制模塊,學習特征中更為重要的維度并提高其權重;
步驟4:將經過特征自注意力機制模塊處理的融合特征矩陣輸入雙向門控循環單元網絡,得到所有時刻的輸出向量以及最后一個隱藏層的狀態向量;
步驟5:使用時間注意力模塊計算最后一個隱藏層的狀態向量與所有時刻的輸出向量之間的注意力,得到注意力權重,根據注意力權重對每一時刻的輸出向量進行加權求和,得到高級特征向量;
步驟6:將高級特征向量輸入全連接分類層,輸出每一情感類別的預測概率,與實際概率分布之間計算交叉熵損失,并通過反向傳播訓練整個網絡不斷更新權重,得到訓練后可以對音視頻樣本進行情感分類的神經網絡模型;
步驟7:采集待檢測的音視頻并將其輸入訓練后的神經網絡模型,得到情感分類結果。
2.如權利要求1所述的基于特征-時間注意力機制的多模態情感識別方法,其特征在于:所述步驟1還包括,
步驟1-1:對視頻模態數據以25fps的幀率提取圖像序列并進行灰度化處理;
步驟1-2:對所有提取出的灰度圖像幀進行人臉檢測以及人臉68點關鍵點定位處理;
步驟1-3:根據定位處理得到的關鍵點,以31號關鍵點鼻尖為中心,以s為邊長,裁剪出人臉正方形區域,并歸一化為64×64的尺寸、[0,1]的像素值范圍,邊長s的取值為:
其中,xright和xleft分別表示表示人臉最左側1號關鍵點與最右側17號關鍵點的橫坐標,xcenter和ycenter分別表示中心點的橫縱坐標,width和height分別表示圖像幀寬與幀高,min表示取最小值;
步驟1-4:將歸一化后的人臉圖像序列輸入深度殘差網絡,并將每一幅人臉圖像編碼為128維的特征向量,得到視頻初級特征矩陣V;其中,所述的深度殘差網絡包括17個卷積層與1個全連接層,除第一個卷積層外每2個卷積層以shortcut結構組成一個殘差模塊,卷積層的卷積核數量隨網絡深度增加而不斷增加。網絡權重通過隨機初始化得到并在訓練過程中通過反向傳播不斷更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110135196.5/1.html,轉載請聲明來源鉆瓜專利網。





