[發明專利]一種基于動態時空圖的視頻推理方法、裝置、設備及介質有效
| 申請號: | 202110077770.6 | 申請日: | 2021-01-20 |
| 公開(公告)號: | CN112733789B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 朱文武;王鑫;李國豪 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F16/783 | 分類號: | G06F16/783;G06F16/732;G06F16/332;G06F18/214;G06F18/241;G06F18/25;G06N3/042;G06N3/0464;G06N3/044;G06N3/0895;G06N5/04 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 茍冬梅 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 動態 時空 視頻 推理 方法 裝置 設備 介質 | ||
本申請實施例涉及數據處理技術領域,具體涉及一種基于動態時空圖的視頻推理方法、裝置、設備及介質,旨在實現復雜場景下的視頻問題推理任務。所述方法包括:將視頻與視頻對應的問題文本輸入問題推理網絡中,將視頻動態表征為問題相關的時空圖,對時空圖進行特征提取,得到視頻中每一幀圖像的特征向量,對得到的特征向量進行上下文建模,得到融合了上下文信息的特征向量,將融合了上下文信息的特征向量與視頻對應的問題文本的特征向量進行融合,得到多模態融合向量,利用神經網絡分類器,根據該多模態融合向量,推理出問題的答案。
技術領域
本申請實施例涉及數據處理技術領域,具體而言,涉及一種基于動態時空圖的視頻推理方法、裝置、設備及介質。
背景技術
視頻問答任務就是給定一段視頻和其對應的自然語言描述的問題文本,利用視頻中的信息,得到所給問題的正確答案。現有技術中,傳統的視頻問答方法使用深度神經網絡得到視頻和問題文本的表征,并將其進行聯合嵌入以融合兩種模態的信息,進而的到問題推理的答案。還有一種是基于時空圖的視頻表征方法,該方法將視頻表征為圖結構,通過對時空圖進行分析,得到視頻問答任務的結果。
現有技術中,傳統的視頻問題推理方法基于全局的視覺特征,缺乏足夠的語義知識,難以識別出不同物體及建模物體間的復雜的時空交互,在復雜的視頻推理場景下表現較差。基于時空圖的視頻表征方法多應用于視頻動作分類等任務,并不主要應用于視頻問答任務,并且該工作在構建時空圖表征時未考慮問題文本,無法針對不同的問題動態構建出視頻時空圖表征,靜態構建的時空圖難以聚焦到與問題輸入最相關的視覺信息,推理問題的準確率不高。
發明內容
本申請實施例提供一種基于動態時空圖的視頻推理方法、裝置、設備及介質,旨在實現復雜場景下的視頻問題推理任務。
本申請實施例第一方面提供一種基于動態時空圖的視頻推理方法,所述方法包括:
將視頻和與視頻對應的問題文本輸入問題推理網絡之中,采用所述問題推理網絡將所述視頻動態表征為問題相關的時空圖;
采用所述問題推理網絡中的圖卷積網絡對所述時空圖進行特征提取,得到所述視頻中每一幀圖像的特征向量;
采用所述問題推理網絡中的循環神經網絡將所述視頻中每一幀圖像的特征向量進行時序上下文建模,得到多個融合了上下文信息的特征向量;
將所述多個融合了上下文信息的特征向量與所述視頻對應的問題文本的特征向量進行融合,得到多模態融合向量;
采用所述問題推理網絡中的神經網絡分類器,根據所述多模態融合向量推理出所述視頻對應的問題文本的答案。
可選地,將視頻和與視頻對應的問題文本輸入問題推理網絡之中,采用所述問題推理網絡將所述視頻動態表征為問題相關的時空圖,包括:
采用所述問題推理網絡中的預訓練好的物體檢測器,從所述視頻的每一幀畫面中識別出所有物體,并將每個物體對應的視覺特征向量作為所述時空圖中的節點,得到多個節點;
將所述多個節點中相鄰的節點用邊進行連接,并采用所述問題推理網絡,根據所述視頻對應的問題文本為每個節點之間的邊賦予相應的權重,完成所述時空圖的構建,所述多個相鄰節點之間的邊代表了節點之間的交互關系。
可選地,采用所述問題推理網絡中的圖卷積網絡對所述時空圖進行特征提取,得到所述視頻中每一幀圖像的特征向量,包括:
采用所述問題推理網絡中的圖卷積網絡對所述時空圖中的相鄰的節點進行融合,得到融合了交互信息的節點;
將所述視頻中同一幀圖像中的所有融合了交互信息的節點進行融合,得到所述視頻中每一幀圖像的特征向量。
可選地,采用所述問題推理網絡中的神經網絡分類器,根據所述多模態融合向量推理出輸入問題的答案,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110077770.6/2.html,轉載請聲明來源鉆瓜專利網。





