[發明專利]利用幀-字幕自監督進行多模態視頻問答的方法有效
| 申請號: | 202110017595.1 | 申請日: | 2021-01-07 |
| 公開(公告)號: | CN112860945B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 張宏達;胡若云;沈然;葉上維;丁麒;王慶娟;陳金威;熊劍峰;丁瑩;趙洲;陳哲乾;李一夫;丁丹翔;姜偉昊 | 申請(專利權)人: | 國網浙江省電力有限公司;國網浙江省電力有限公司營銷服務中心;浙江大學;杭州一知智能科技有限公司 |
| 主分類號: | G06F16/783 | 分類號: | G06F16/783;G06V10/80;G06V10/82;G06V10/771;G06K9/62;G06N3/08 |
| 代理公司: | 杭州華鼎知識產權代理事務所(普通合伙) 33217 | 代理人: | 項軍 |
| 地址: | 310000*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 字幕 監督 進行 多模態 視頻 問答 方法 | ||
本發明屬于視頻問答領域,具體涉及利用幀?字幕自監督進行多模態視頻問答的方法。包括以下步驟:提取視頻幀特征、問答特征、字幕特征、字幕建議特征;得到帶注意力幀特征、帶注意力字幕特征,得到融合特征;基于融合特征計算得到時間注意力得分;利用時間注意力得分計算得到問題的時間邊界;利用融合特征與時間注意力得分計算得到問題答案;利用問題的時間邊界和問題答案訓練神經網絡;優化神經網絡的網絡參數,利用最優神經網絡進行視頻問答并劃定時間邊界。本發明沒有使用標注代價昂貴的時間標注,而是根據自行設計的時間注意分數生成問題相關的時間邊界。另外本發明通過挖掘字幕與對應視頻內容之間的聯系,得到更為精準的答案。
技術領域
本發明屬于視頻問答領域,具體涉及利用幀-字幕自監督進行多模態視頻問答的方法。
背景技術
多模態視頻問答任務是一項具有挑戰性的任務,目前吸引了很多人的關注。該任務設計計算機視覺和自然語言處理兩個領域,需要系統可以針對某個特定的視頻給出問題的答案并劃定問題在視頻中對應的時間邊界。目前視頻問答任務仍然是一個較為新穎的任務,對其的研究還不成熟。
目前已有的多模態視頻問答任務一般使用卷積神經網絡編碼視頻,利用循環神經網絡編碼問答以及視頻中的字幕,分別將問答編碼、字幕編碼與視頻編碼融合,得到融合特征。設計解碼器,通過問答標簽和時間標簽訓練解碼器,得到問題答案和時間邊界。
這種方案需要時間標簽訓練解碼器以提升效果,但是時間標簽的標注是經驗性的并且昂貴的。此外,上述方法將視頻幀和字幕割裂開來,忽視了幀與字幕之間的對應關系。
發明內容
本發明所要解決的技術問題就是提供利用幀-字幕自監督進行多模態視頻問答的方法。
為解決上述技術問題,本發明采用如下技術方案:利用幀-字幕自監督進行多模態視頻問答的方法,包括以下步驟:
S1:針對輸入的視頻、問答文本、字幕文本,提取其中的視頻幀特征、問答特征、字幕特征、字幕建議特征;
S2:將視頻幀特征和問答特征引入注意力機制進行融合得到帶注意力幀特征;將字幕建議特征和問答特征引入注意力機制進行融合得到帶注意力字幕特征;將所有帶注意力幀特征和帶注意力字幕特征堆疊得到融合特征;基于融合特征計算得到時間注意力得分;
S3:利用時間注意力得分計算得到問題的時間邊界;
S4:利用融合特征與時間注意力得分計算得到問題答案;
S5:利用問題的時間邊界和問題答案訓練神經網絡;
S6:優化神經網絡的網絡參數,得到最優神經網絡,利用最優神經網絡進行視頻問答并劃定時間邊界。
優選的,所述針對輸入的視頻、問答文本、字幕文本,提取其中的視頻幀特征、問答特征、字幕特征、字幕建議特征包括:
對于輸入的視頻,首先按照設定頻率從視頻中提取幀,對于每一幀,使用FasterR-CNN預訓練模型分割出20個候選物體獲得其特征表達,通過主成分分析法將其降維至300維,然后通過一層全連接網絡投影到128維空間,得到視頻幀特征其中T代表視頻幀數量,No代表物體區域數量;
對于視頻問答輸入包括一個問題q和5個候選答案將其組成為5組問答對hk=[q,ak],使用BERT字嵌入模型將問答對、字幕嵌入為768維向量然后經過一層全連接網絡投影至128維空間,得到問答特征和字幕特征其中Ls代表每個問答對的字數,T代表幀總數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網浙江省電力有限公司;國網浙江省電力有限公司營銷服務中心;浙江大學;杭州一知智能科技有限公司,未經國網浙江省電力有限公司;國網浙江省電力有限公司營銷服務中心;浙江大學;杭州一知智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110017595.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種家用車頂置休閑亭
- 下一篇:一種碳刷端面弧度研磨裝置





