[發明專利]一種基于音視頻多模態時序預測的視頻數據特征提取方法有效
| 申請號: | 202110268187.3 | 申請日: | 2021-03-12 |
| 公開(公告)號: | CN112906624B | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 陳雁翔;趙鵬鋮;朱玉鵬;盛振濤 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視頻 多模態 時序 預測 數據 特征 提取 方法 | ||
1.一種基于音視頻多模態時序預測的視頻數據特征提取方法,其特征包括以下步驟:
步驟1.利用視頻采集裝置獲取視頻數據集,記為X={X1,X2,...,Xi,...,XN},Xi代表第i個視頻,1≤i≤N,N表示視頻總個數,對所述視頻數據集X提取音頻流A和視頻流V,記為其中,表示第i個視頻Xi的音頻流,表示第i個視頻Xi的視頻流;令表示第i個音視頻數據對,從而構建音視頻數據對集合S={S1,S2,...,Si,...,SN};
步驟2.對所述視頻流V中每個視頻流依次采用隨機裁剪、隨機水平翻轉、顏色擾動、尺度放縮操作后得到預處理后的視頻流其中,表示預處理后的第i個視頻Xi的視頻流;根據視頻下采樣率r將預處理后的第i個視頻Xi的視頻流分成T個塊,每一個塊包含q個視頻幀;
對所述音頻流A中每個音頻片段依次采用振幅擾動、時間擾動操作后得到預處理后的音頻流其中,表示預處理后的第i個視頻Xi的音頻流;將所述預處理后的第i個視頻Xi的音頻流按照時間戳分別與預處理后的第i個視頻Xi的視頻流的T個塊相對應,并對每個塊的音頻片段采用梅爾頻譜圖轉換操作,將一維音頻信號轉為二維頻譜,從而構建預處理后的第i個音視頻數據對進而得到預處理后的音視頻數據對集合S′={S′1,S′2,...,S′i,...,S′N};
步驟3.構建音視頻多模態時序預測模型;
步驟3.1.構建T個視頻流特征提取網絡單元;
每個視頻流特征提取單元依次由M1個三維時空卷積blocks和1個三維自適應最大池化層組成,每一個三維時空卷積block包含M2個子模塊,每個子模塊包含1個空間三維卷積、1個時間三維卷積,每個空間或時間三維卷積后均連接1個批量歸一化層、1個Relu非線性激活函數;
所述預處理后的音視頻數據對集合S′={S′1,S′2,...,S′i,...,S′N}輸入所述音視頻多模態時序預測模型中,其中,預處理后的第i個視頻Xi的視頻流中的T個塊分別經過T個視頻流特征提取網絡單元后輸出T個視頻流特征,其中,前t個視頻流特征作為已知視頻流信息,后K個視頻流特征作為未來視頻流信息,t+K=T;
步驟3.2.構建T個音頻流特征提取網絡單元;
每個音頻流特征提取單元依次由W1個二維空間卷積blocks和1個二維自適應最大池化層組成,每一個二維空間卷積block包含W2個子模塊,每個子模塊包含1個二維空間卷積、1個批量歸一化層、1個Relu非線性激活函數;
所述預處理后的第i個視頻Xi的音頻流中相對應的T個塊分別經過T個音頻流特征提取網絡單元后輸出T個音視頻流特征;其中,前t個音頻流特征作為已知音頻流信息,后K個音頻流特征作為未來音頻流信息;
步驟3.3.構建時序信息聚合網絡單元;
所述時序信息聚合網絡單元由T個卷積門控循環單元ConvGRU組成;
所述時序信息聚合網絡單元分別聚合前t個已知視頻流信息和前t個已知音頻流信息,從而相應得到已知信息的第t個代表性視頻流特征和得到已知信息的第t個代表性音頻流特征;
步驟3.4.構建多模態交互預測網絡單元;
所述多模態交互預測網絡單元,包含1個音頻特征映射單元、1個視頻特征映射單元、2個音視頻特征交互預測單元;
音頻或視頻特征映射單元、音視頻特征交互預測單元均包含1個二維卷積層、1個Relu非線性激活函數、一個二維卷積層;
所述視頻特征映射單元對已知信息的代表性視頻流特征進行模態信息轉換,得到空間映射后的視頻特征;
所述音頻特征映射單元對已知信息的代表性音頻流特征進行模態信息轉換,得到空間映射后的音頻特征;
所述音視頻特征交互預測單元分別對空間映射后的視頻特征信息和空間映射后的音頻特征信息進行預測,從而相應得到視頻模態和音頻模態下的第t+1個未來特征信息,將各模態的第t+1個未來特征信息分別再次送入各自對應的時序信息聚合網絡單元,得到第t+2個未來特征信息,從而不斷循環預測并相應得到視頻模態和音頻模態下的K個未來特征信息;
步驟4.根據多模態交互預測得到的未來特征信息,構建對比損失函數優化網絡;
步驟4.1.利用式(1)預測未來視頻流信息下的對比損失lossv:
式(1)中,E表示期望,表示特征相似度函數,表示預處理后的第i個視頻Xi的視頻流的第t個塊預測的第k個未來特征信息,1≤k≤K,表示預處理后的第i個視頻Xi的視頻流的第t+k個真實的未來特征信息;表示預處理后的第j個視頻Xi的視頻流的第t+k個真實的未來特征信息,1≤j≤N;
步驟4.2.利用式(2)預測未來音頻流特征下的對比損失lossa:
式(2)中,表示預處理后的第i個視頻Xi的音頻流的第t個塊預測的第k個未來特征信息,1≤k≤K,表示預處理后的第i個視頻Xi的音頻流的第t+k個真實的未來特征信息;表示預處理后的第j個視頻Xi的音頻流的第t+k個真實的未來特征信息,1≤j≤N;
步驟4.3.利用式(3)計算音視頻多模態預測的總損失Loss:
Loss=lossv+lossa (3)
步驟5.利用自適應矩陣估計優化算法對總損失Loss進行優化求解,更新音視頻多模態時序預測模型的網絡參數,并得到訓練好的最優預測模型;從而利用所述訓練好的最優預測模型中的視頻流特征提取網絡單元、音頻流特征提取網絡單元和時序信息聚合網絡單元對待預測的視頻進行處理,得到各模態下的代表性特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110268187.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種益生菌每日堅果及其制備方法
- 下一篇:一種皮蛋加工工業廢液處理方法





