[發(fā)明專利]動態(tài)多模態(tài)視頻描述生成方法有效
| 申請?zhí)枺?/td> | 201711433810.6 | 申請日: | 2017-12-26 |
| 公開(公告)號: | CN108200483B | 公開(公告)日: | 2020-02-28 |
| 發(fā)明(設(shè)計(jì))人: | 張兆翔;郝王麗;關(guān)赫 | 申請(專利權(quán))人: | 中國科學(xué)院自動化研究所 |
| 主分類號: | H04N21/84 | 分類號: | H04N21/84;H04N21/466;H04N21/44 |
| 代理公司: | 北京瀚仁知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11482 | 代理人: | 郭文浩;陳曉鵬 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 動態(tài) 多模態(tài) 視頻 描述 生成 方法 | ||
1.一種動態(tài)多模態(tài)視頻描述生成方法,其特征在于,包括以下步驟:
步驟S1:提取視頻中所對應(yīng)的視覺CNN特征和聽覺MFCC特征,并判斷聽覺MFCC特征是否受損或者消失;如損失或消失執(zhí)行步驟S2,否則執(zhí)行步驟S3;
步驟S2:將所述視覺CNN特征通過基于編碼-解碼方式的聽覺推理模型進(jìn)行推理得到完整的聽覺MFCC特征;
步驟S3:利用所述視覺CNN特征和聽覺MFCC特征,基于視聽覺之間的時域依賴性,通過多模態(tài)編碼器進(jìn)行編碼以及視聽兩個模態(tài)的交互融合,得到融合特征,將融合特征通過解碼器迭代地解碼后生成視頻描述;
其中,所述多模態(tài)編碼器為基于共享權(quán)值的多模態(tài)LSTM編碼器,所述基于共享權(quán)值的多模態(tài)LSTM編碼器中包含兩個LSTM神經(jīng)網(wǎng)絡(luò),分別用于對視覺特征CNN和聽覺特征MFCC進(jìn)行編碼,兩個LSTM神經(jīng)網(wǎng)絡(luò)的內(nèi)部記憶單元之間權(quán)值共享;或者
所述多模態(tài)編碼器為基于共享記憶單元的多模態(tài)記憶單元編碼器,所述基于共享記憶單元的多模態(tài)記憶單元編碼器包含兩個LSTM神經(jīng)網(wǎng)絡(luò),分別用于對視覺CNN特征和聽覺MFCC特征進(jìn)行編碼,兩個LSTM神經(jīng)網(wǎng)絡(luò)的內(nèi)部記憶單元通過外部記憶單元進(jìn)行信息更新。
2.根據(jù)權(quán)利要求1所述的動態(tài)多模態(tài)視頻描述生成方法,其特征在于,所述聽覺推理模型,其生成聽覺MFCC特征的方法為:
使用編碼器對視頻CNN特征進(jìn)行編碼,得到高層語義;
利用解碼器解碼出對應(yīng)的聽覺MFCC特征;
其中,所述解碼器為聽覺推理模型的解碼器。
3.根據(jù)權(quán)利要求1所述動態(tài)多模態(tài)視頻描述生成方法,其特征在于,所述基于共享權(quán)值的多模態(tài)LSTM編碼器,其建模公式如下:
其中,
it,ft,ot和分別是輸入門,遺忘門,輸出門和記憶單元;
上標(biāo)s為模態(tài)的索引值;
s=0,代表基于LSTM的聽覺信息編碼器;
s=1,代表基于LSTM的視覺信息編碼器;
其中x0是聽覺MFCC特征;
x1是視覺CNN特征;
W,U,b是對應(yīng)項(xiàng)的權(quán)值矩陣,其中U代表基于LSTM的視聽編碼器在隱藏層單元共享權(quán)值;
σ為sigmoid函數(shù);
i為LSTM的輸入門;
h為LSTM的隱藏狀態(tài);
ht、ht-1為LSTM在t和t-1時刻的隱藏狀態(tài);
Wi、Wf、Wo、Wc分別為輸入門,忘記門,輸出門,記憶單元各項(xiàng)關(guān)于輸入x的權(quán)值;
xt-1為t-1時刻的輸入;
Ui、Uf、Uo、Uc分別為輸入門,忘記門,輸出門,記憶單元各項(xiàng)關(guān)于隱藏狀態(tài)h權(quán)值;
bi、bf、bo、bc分別為輸入門,忘記門,輸出門,記憶單元各項(xiàng)的偏置項(xiàng);
ct、ct-1為記憶單元在t和t-1時刻的值。
4.根據(jù)權(quán)利要求1所述動態(tài)多模態(tài)視頻描述生成方法,其特征在于,所述“兩個LSTM神經(jīng)網(wǎng)絡(luò)的內(nèi)部記憶單元通過外部記憶單元進(jìn)行信息更新”,其方法為:
從外部記憶單元中讀取信息;
將外部記憶單元讀到的信息和兩個LSTM神經(jīng)網(wǎng)絡(luò)的內(nèi)部記憶單元分別進(jìn)行融合,并更新兩個LSTM神經(jīng)網(wǎng)絡(luò)的記憶單元。
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述動態(tài)多模態(tài)視頻描述生成方法,其特征在于,所述“提取視頻中所對應(yīng)的視覺CNN特征和聽覺MFCC特征”,其方法為:
通過卷積神經(jīng)網(wǎng)絡(luò)對視頻中的視頻幀進(jìn)行視覺CNN特征的提取;
通過卷積神經(jīng)網(wǎng)絡(luò)對視頻幀的對應(yīng)音頻片段進(jìn)行音頻MFCC特征的提取。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動化研究所,未經(jīng)中國科學(xué)院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711433810.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點(diǎn)播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機(jī)頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨(dú)立于分配過程實(shí)現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件
- 動態(tài)矢量譯碼方法和動態(tài)矢量譯碼裝置
- 動態(tài)口令的顯示方法及動態(tài)令牌
- 動態(tài)庫管理方法和裝置
- 動態(tài)令牌的身份認(rèn)證方法及裝置
- 令牌、動態(tài)口令生成方法、動態(tài)口令認(rèn)證方法及系統(tǒng)
- 一種動態(tài)模糊控制系統(tǒng)
- 一種基于動態(tài)信號的POS機(jī)和安全保護(hù)方法
- 圖像動態(tài)展示的方法、裝置、系統(tǒng)及介質(zhì)
- 一種基于POS機(jī)聚合碼功能分離顯示動態(tài)聚合碼的系統(tǒng)
- 基于動態(tài)口令的身份認(rèn)證方法、裝置和動態(tài)令牌
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





