[發明專利]一種基于跨模態注意力機制的視聽事件定位方法及裝置有效
| 申請號: | 202110235810.5 | 申請日: | 2021-03-03 |
| 公開(公告)號: | CN112989977B | 公開(公告)日: | 2022-09-06 |
| 發明(設計)人: | 于家碩;程穎;馮瑞 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/764;G06V10/82;G06N3/04;G06N3/08;G10L15/16 |
| 代理公司: | 上海德昭知識產權代理有限公司 31204 | 代理人: | 郁旦蓉 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 跨模態 注意力 機制 視聽 事件 定位 方法 裝置 | ||
1.一種基于跨模態注意力機制的視聽事件定位方法,用于對目標音視頻中的事件進行識別與定位,其特征在于,包括如下步驟:
步驟S1-1,利用預定的預處理方法對所述目標音視頻進行預處理得到圖像特征以及音頻特征;
步驟S1-2,基于所述圖像特征以及所述音頻特征利用預先訓練好的基于跨模態注意力機制的神經網絡模型進行識別與定位,從而得出所述目標音視頻中每一個時刻的事件類別,
其中,所述神經網絡模型包括跨模態注意力機制模塊、單模態自注意力機制模塊、循環神經網絡模塊以及分類模塊,
所述跨模態注意力機制模塊利用多頭注意力機制針對所述圖像特征融合所述音頻特征得到視覺雙模態特征,并通過殘差結構將所述視覺雙模態特征與所述圖像特征相加得到視覺跨模態特征,
所述跨模態注意力機制模塊利用多頭注意力機制針對所述音頻特征融合所述圖像特征得到聽覺雙模態特征,并通過殘差結構將所述聽覺雙模態特征與所述音頻特征相加得到聽覺跨模態特征,
所述單模態自注意力機制模塊分別對所述視覺跨模態特征以及所述聽覺跨模態特征進行單模態片段間關系捕捉,得到對應的視覺自注意力特征以及聽覺自注意力特征,所述單模態自注意力機制模塊的QKV矩陣全部來自于當前模態,從而能夠捕捉單模態內的長距離依賴關系,
所述循環神經網絡模塊分別對所述視覺自注意力特征以及所述聽覺自注意力特征進行長距離依賴關系捕捉,得到對應的視覺特征以及聽覺特征,
所述分類模塊包括全連接層以及Softmax函數,該分類模塊基于所述視覺特征以及所述聽覺特征進行分類,從而得出所述目標音視頻中每一個時刻的事件類別。
2.根據權利要求1所述的基于跨模態注意力機制的視聽事件定位方法,其特征在于:
其中,在所述單模態自注意力機制模塊分別對所述視覺跨模態特征以及所述聽覺跨模態特征進行單模態片段間關系捕捉處理前,利用層歸一化操作分別對所述視覺跨模態特征以及所述聽覺跨模態特征進行歸一化處理。
3.根據權利要求1所述的基于跨模態注意力機制的視聽事件定位方法,其特征在于:
其中,所述預處理方法包括如下步驟:
步驟S2-1,分別對所述目標音視頻中的視頻以及音頻進行處理,得到對應的圖像序列以及音頻序列;
步驟S2-2,利用預先訓練好的圖像特征提取模型從所述圖像序列中提取到所述圖像特征,利用預先訓練好的音頻特征提取模型從所述音頻序列中提取得到所述音頻特征,
所述步驟S2-1包括如下子步驟:
步驟S2-1-1,將所述視頻按照預定的時間間隔分割,得到多個視頻片段,從每個所述視頻片段中抽取預定數量的圖像幀,從而構成所述圖像序列,
步驟S2-1-2,利用梅爾頻譜處理所述音頻,從而得到所述音頻序列。
4.根據權利要求3所述的基于跨模態注意力機制的視聽事件定位方法,其特征在于:
其中,所述圖像特征提取模型為VGG-19模型,所述音頻特征提取模型為VGGish模型。
5.根據權利要求1所述的基于跨模態注意力機制的視聽事件定位方法,其特征在于:
其中,所述循環神經網絡模塊為LSTM模塊。
6.一種基于跨模態注意力機制的視聽事件定位裝置,用于對目標音視頻中的事件進行識別與定位,其特征在于,包括如下步驟:
預處理部,利用預定的預處理方法對所述目標音視頻進行預處理得到圖像特征以及音頻特征;
識別定位部,基于所述圖像特征以及所述音頻特征利用預先訓練好的基于跨模態注意力機制的神經網絡模型進行識別與定位,從而得出所述目標音視頻中每一個時刻的事件類別,
其中,所述神經網絡模型包括跨模態注意力機制模塊、單模態自注意力機制模塊、循環神經網絡模塊以及分類模塊,
所述跨模態注意力機制模塊利用多頭注意力機制針對所述圖像特征融合所述音頻特征得到視覺雙模態特征,并通過殘差結構將所述視覺雙模態特征與所述圖像特征相加得到視覺跨模態特征,
所述跨模態注意力機制模塊利用多頭注意力機制針對所述音頻特征融合所述圖像特征得到聽覺雙模態特征,并通過殘差結構將所述聽覺雙模態特征與所述音頻特征相加得到聽覺跨模態特征,
所述單模態自注意力機制模塊分別對所述視覺跨模態特征以及所述聽覺跨模態特征進行單模態片段間關系捕捉,得到對應的視覺自注意力特征以及聽覺自注意力特征,所述單模態自注意力機制模塊的QKV矩陣全部來自于當前模態,從而能夠捕捉單模態內的長距離依賴關系,
所述循環神經網絡模塊分別對所述視覺自注意力特征以及所述聽覺自注意力特征進行長距離依賴關系捕捉,得到對應的視覺特征以及聽覺特征,
所述分類模塊包括全連接層以及Softmax函數,該分類模塊基于所述視覺特征以及所述聽覺特征進行分類,從而得出所述目標音視頻中每一個時刻的事件類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110235810.5/1.html,轉載請聲明來源鉆瓜專利網。





