[發明專利]利用幀-字幕自監督進行多模態視頻問答的方法有效
| 申請號: | 202110017595.1 | 申請日: | 2021-01-07 |
| 公開(公告)號: | CN112860945B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 張宏達;胡若云;沈然;葉上維;丁麒;王慶娟;陳金威;熊劍峰;丁瑩;趙洲;陳哲乾;李一夫;丁丹翔;姜偉昊 | 申請(專利權)人: | 國網浙江省電力有限公司;國網浙江省電力有限公司營銷服務中心;浙江大學;杭州一知智能科技有限公司 |
| 主分類號: | G06F16/783 | 分類號: | G06F16/783;G06V10/80;G06V10/82;G06V10/771;G06K9/62;G06N3/08 |
| 代理公司: | 杭州華鼎知識產權代理事務所(普通合伙) 33217 | 代理人: | 項軍 |
| 地址: | 310000*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 字幕 監督 進行 多模態 視頻 問答 方法 | ||
1.利用幀-字幕自監督進行多模態視頻問答的方法,其特征在于,包括以下步驟:
S1:針對輸入的視頻、問答文本、字幕文本,提取其中的視頻幀特征、問答特征、字幕特征、字幕建議特征;
S2:將視頻幀特征和問答特征引入注意力機制進行融合得到帶注意力幀特征;將字幕建議特征和問答特征引入注意力機制進行融合得到帶注意力字幕特征;將所有帶注意力幀特征和帶注意力字幕特征堆疊得到融合特征;基于融合特征計算得到時間注意力得分;
S3:利用時間注意力得分計算得到問題的時間邊界;
S4:利用融合特征與時間注意力得分計算得到問題答案;
S5:利用問題的時間邊界和問題答案訓練神經網絡;
S6:優化神經網絡的網絡參數,得到最優神經網絡,利用最優神經網絡進行視頻問答并劃定時間邊界;
所述將所有帶注意力幀特征和帶注意力字幕特征堆疊得到融合特征包括:
將所有帶注意力幀特征和帶注意力字幕特征堆疊,得到Vf∈RT×128和Sf∈RT×128;
將Vf和Sf相乘得到相似矩陣Simf∈RT×T;
分別將視頻幀對應相似矩陣和字幕對應的相似性矩陣分別與帶注意力的幀特征Vf和帶注意力機制的字幕特征Sf相乘:
Sfatt=SimfSf,Sfatt∈RT×128,
得到的結果進行融合得到融合特征F∈RT×128:
F=([Vfatt;sfatt;Vfatt⊙Sfatt;Vfatt+Sfatt])W2+b2,
其中W2和b2代表待訓練的權重矩陣;
所述基于融合特征計算得到時間注意力得分包括:
對于得到的融合特征F∈RT×128,通過一個全連接層和sigmoid函數計算得到時間注意力得分Ak∈RT,所述時間注意力得分用于反映了視頻幀和問題的相關程度,
Ak=sigmoid(WF+b)
其中W為F的參數矩陣,負責將F∈RT×128投影至RT空間,b為偏移項,sigmoid代表sigmoid函數;
所述利用時間注意力得分計算得到問題的時間邊界包括:
得到的時間注意力得分為Ak∈RT,設定一個閾值At,大于閾值At的時間段作為時間邊界的候選方案;
對于每個時間邊界的候選方案,計算從開始到結束的精細化得分AP:
其中st代表開始時刻,ed代表結束時刻.α用來控制時間長度;選擇精細化劃分得分最高的作為問題時間邊界劃分方案{st,ed}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網浙江省電力有限公司;國網浙江省電力有限公司營銷服務中心;浙江大學;杭州一知智能科技有限公司,未經國網浙江省電力有限公司;國網浙江省電力有限公司營銷服務中心;浙江大學;杭州一知智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110017595.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種家用車頂置休閑亭
- 下一篇:一種碳刷端面弧度研磨裝置





