[發明專利]一種基于自適應融合網絡的視頻情感分類方法有效
| 申請號: | 201910069977.1 | 申請日: | 2019-01-24 |
| 公開(公告)號: | CN109815903B | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 王瀚漓;易云 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 楊宏泰 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自適應 融合 網絡 視頻 情感 分類 方法 | ||
1.一種基于自適應融合網絡的視頻情感分類方法,用以對電影所引發的情感進行分類回歸,其特征在于,包括以下步驟:
1)構建自適應融合網絡模型,包括:依次設置的統計數據層、循環層、全連接層、時間自適應融合層、多模自適應融合層和損失函數層,具體包括以下步驟:
1a)采用由RGB模態、光流模態和音頻模態構成的序列表示給定的視頻,記每個模態的序列為V={v1,v2,…,vL},將序列V分成T=L/N個分段Si={vi,vi+1,…,vi+N},計算時間序列上所有分段Si的算術平均值E(Si)和標準差D(Si),則在經過統計數據層后,序列V由X={x1,…,xT}表示,其中,L為序列V的長度,N為采樣間隔,i∈[1,T],xi=con(E(Si),D(Si))為E(Si)和D(Si)的連接;
1b)給定模態m的輸入序列M為模態總數,經過循環神經網絡層和全連接層后,輸入序列Xm映射到全連接層的輸出
其中,f為循環層函數,為第m個模態的RNN隱藏狀態,T為輸入序列Xm的長度,Wh為映射隱藏狀態H的權重矩陣,b為偏置項;
時間自適應融合層將映射到該層的輸出pm,則有:
其中,et是第t個輸出的自適應權重,⊙表示矩陣的數乘運算;
1c)以pm作為輸入,多模自適應融合層的輸出p定義為:
其中,um是第m個模態的自適應權重;
2)將輸入的視頻集分為訓練集和測試集,并獲取視頻集中每個視頻的三個模態特征向量,所述的三個模態為RGB、光流和音頻;
3)對于訓練集,分別將三個模態的特征向量輸入自適應融合網絡,并采用基于梯度的優化算法進行優化,得到訓練好的自適應融合網絡模型Model;
4)對于測試集,將每個視頻的特征向量輸入訓練好的網絡模型Model,預測視頻情感進行分類。
2.根據權利要求1所述的一種基于自適應融合網絡的視頻情感分類方法,其特征在于,所述的步驟2)中,獲取RGB模態、光流模態和音頻模態的特征向量具體包括以下步驟:
2a)提取視頻的RGB圖像,基于Inception-V3網絡模型,在Kinetics數據集上訓練模型MRGB,以每一個視頻的RGB圖像作為輸入,使用模型MRGB獲取RGB圖像的特征向量;
2b)采用TV-L1光流算法,從視頻的第二幀開始,計算每一幀的X和Y方向光流矩陣,以光流矩陣作為Inception-V3網絡的輸入,在Kinetics數據集上訓練模型M光流,以每一個視頻的光流作為輸入,采用模型M光流獲取光流的特征向量;
2c)提取視頻的音頻文件,基于VGGish網絡模型,在AudioSet數據集上訓練模型M音頻,以每一個視頻的音頻作為輸入,采用模型M音頻獲取所有音頻文件的特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910069977.1/1.html,轉載請聲明來源鉆瓜專利網。





