[發明專利]利用自適應的時空圖模型通過提升視頻-語言表征學習來解決視頻問答問題的方法及其系統有效
| 申請號: | 202010795917.0 | 申請日: | 2020-08-10 |
| 公開(公告)號: | CN111652202B | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 趙洲;何金錚;金韋克 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06K9/62;G06N3/04;G06F16/332;G06F16/9537 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 自適應 時空 模型 通過 提升 視頻 語言 表征 學習 解決 問答 問題 方法 及其 系統 | ||
本發明公開了一種利用自適應的時空圖模型通過提升視頻?語言表征學習來解決視頻問答問題的方法及其系統,屬于視頻問答文本生成領域。首先,針對一組視頻、問題、答案訓練集,使用目標檢測器獲取每個視頻幀的目標級別的信息。其次,對于目標級別的信息,使用自適應的時空圖模型學到目標的動態表達。最后,使用Transformer模型學習視覺和文本信息之間的聯系,增強視覺問答的性能。相比于一般的視頻問答解決方案,本發明利用了自適應的時空圖模型更好地獲取了目標的時空動態信息,同時試圖將不同視頻幀的相同物體聯系起來,更好地捕獲動態信息,并采用了圖片?語言數據進行預訓練來提升視頻?語言模型,提升了解決視頻問答問題的效果。
技術領域
本發明涉及視頻問答文本生成領域,尤其涉及一種利用自適應的時空圖模型通過提升視頻-語言表征學習來解決視頻問答問題的方法及其系統。
背景技術
視覺語言研究的熱點是對視覺內容、語言語義及其相互關系的理解。視頻問答是典型的任務之一。最近,一些BERT風格的視覺語言預訓練方法被提出,并顯示出在各種任務上的有效性。在這項工作中,本發明還利用成功的視覺語言Transformer解決了視頻問答的問題。
現有的技術方案,比如ViLBERT和LXMBERT都采用了基于模態內或者跨模態關系的掩碼技術進行預訓練,這種訓練方法和BERT的方法很類似。但是現有的有標注的視頻數據很少,而預訓練需要大量的數據,所以上述方法效果都不太理想。為了解決數據問題,visualBERT方法和CBT方法嘗試采用視頻網站上面的大量的無標簽數據進行自監督預訓練。但是由于這些視頻的視覺特征更加動態多樣,沒有足夠的結構化的信息,導致預訓練效果不理想。并且這樣的預訓練需要大量的計算資源,而僅用幾個gpu是很難做到的。
此外,現有技術中的模型往往只單獨關注了空間建?;蛘邥r間建模,缺乏時空關系,建模不充分。并且在時間建模上往往只關注第一幀和最后一幀的關系,在長視頻的應用效果上較差。
發明內容
本發明的目的在于解決現有技術中的問題,提出了一種利用自適應的時空圖模型通過提升視頻-語言表征學習來解決視頻問答問題的方法及其系統,通過自適應的時空圖模型來提升視覺-語言表征的性能,并且采用了圖片-語言數據集對視頻-語言Transformer模型中的Transformer模塊進行預訓練,顯著提高了模型的預測效果。
發明所采用的一種利用自適應的時空圖模型通過提升視頻-語言表征學習來解決視頻問答問題的方法,具體如下。
1)對于一段視頻,采用目標檢測技術提取出每個視頻幀中的目標級別特征,將目標級別特征組合后獲得視頻幀中的初始區域特征。
2)構建由多層時空圖組成的時空圖模型,每一層時空圖均包括空間圖模型和時序圖模型,采用空間圖模型對區域特征進行空間更新。
構建視頻幀中每一個目標區域對應的錨管并根據視頻幀依次更新,然后將錨管里面的目標按照時序排列,形成時空管,利用所述時空管中的目標構成時序圖,對空間更新后的區域特征進行時序更新。
將步驟1)獲得的初始區域特征作為第一層時空圖的輸入,并將前一層時空圖輸出的時序更新后的區域特征作為下一層時空圖的輸入,形成由多層時空圖組成的時空圖模型;最后一層時空圖的輸出作為時空圖模型的最終輸出,再經時序GRU編碼后獲得視頻管級別的表征。
3)構建視頻-語言Transformer模型,包括步驟2)所述的時空圖模型和Transformer模型,將問題語句以及經步驟2)輸出的視頻管級別的表征作為Transformer模型的輸入,根據問題的標準答案對視頻-語言Transformer模型進行訓練。
4)針對待處理的問題語句,使用訓練好的視頻-語言Transformer模型直接獲得所要解答的問題的答案。
本發明的另一目的在于提供了一種用于實現上述方法的系統。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010795917.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于編碼-解碼網絡的音樂伴奏自動生成方法及其系統
- 下一篇:電子鎖裝置





