[發明專利]一種文段問答框架下跨模態的時域視頻定位方法有效
| 申請號: | 202210606624.2 | 申請日: | 2022-05-31 |
| 公開(公告)號: | CN114925232B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 俞俊;郭宇軒;彭璽 | 申請(專利權)人: | 杭州電子科技大學;四川大學 |
| 主分類號: | G06F16/732 | 分類號: | G06F16/732;G06F16/78;G06F16/783;G06F40/211;G06F40/30;G06N3/0442;G06N3/045;G06N3/0464;G06N3/08;G06V10/80;G06V10/82 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 問答 框架 下跨模態 時域 視頻 定位 方法 | ||
1.一種文段問答框架下跨模態的時域視頻定位方法,其特征在于包括如下步驟:
步驟1.數據集獲取;從現有的公開文本視頻時序定位任務數據集中,選擇ActivityNet及Charades數據集;
步驟2.數據處理;對于步驟1中獲取的數據集,對文本數據使用300維的GloVe向量初始化每一個單詞得到語義特征;對未剪輯的視頻數據,對其中每一幀進行下采樣并使用預訓練好的3D卷積網絡提取其RGB初步視覺特征;
步驟3.定義文段問答框架下跨模態的時域視頻定位模型,該模型包括編碼器、序列查詢注意力、局部-全局/視頻-文本交互、上下文-查詢注意力以及條件文段預測器五個模塊;以步驟2處理后的視頻和文本訓練數據作為輸入;
步驟4.損失函數;損失函數的作用是用來校正模型定位的片段與真實視頻片段之間的誤差;此處采用查詢可分注意力損失函數、定位損失函數兩種損失函數;
步驟5.定義Adam優化器,給模型設定一個學習率,初始學習率設定為0.0001,同時采用學習率預熱機制,使模型更加穩定,同時加快收斂速度;同時采用梯度裁剪來有效控制梯度消失問題;
步驟6.網絡訓練與測試,訓練步驟3中的時域視頻定位模型,訓練的同時在各數據集提供的測試集上進行評估;
步驟3所述的編碼器模塊具體實現如下:
對于擁有L個詞的文本詞嵌入輸入,首先使用全連接層統一文本詞嵌入與初步視覺特征的維度;再使用兩個bi-LSTM獲取文本詞嵌入的單詞級語義特征和句子級語義特征,其中單詞級語義特征第l個位置的特征由兩LSTM對應位置的隱層狀態值連接得到,句子級語義特征由兩個LSTM最后的隱層狀態值連接得到;
對于由步驟2中CNN處理后得到的初步視覺特征和處理得到的語義特征統一到指定維度,再通過相同的bi-LSTM得到對應更細致的視覺特征和語義特征;
步驟3所述的上下文-查詢注意力模塊具體實現如下:將編碼器模塊得到的語義特征和局部-全局/視頻-文本交互模塊得到的跨模態特征進行基于注意力機制的融合,融合后的特征為:
Vq=FFN([R;A;R⊙A;R⊙B])
其中:
其中,A、B分別是上下文對查詢以及查詢對上下文的注意力權重,E表示單詞級語義特征;R表示局部-全局/視頻-文本交互模塊最終輸出的特征;S表示上下文特征和語義特征之間的相似度得分Sr,Sc分別由相似度得分S通過softmax層對行及列作歸一化后得,⊙代表矩陣元素間相乘,T表示轉置;
條件文段預測器模塊具體實現如下:
該模塊使用兩個堆疊的Uni-LSTM處理上下文-查詢注意力模塊融合得到的特征Vq,后邊界LSTM接收前邊界LSTM的輸出故受其限制,最終兩個隱層狀態被送入前饋層計算第t個特征,根據該特征計算起始處和結束處的置信度得分
其中,分別代表第t個特征作為起始和終止邊界的得分,為Vq中的第t個融合特征,h為LSTM的隱層,Ws、We為前饋層的權重矩陣,bs、be為前饋層的偏置,起始和終止邊界的計算公式如下:
ps=softmax(Ss)
Pe=softmax(Se)。
2.根據權利要求1所述的文段問答框架下跨模態的時域視頻定位方法,其特征在于時域視頻定位模型具體:采用LGI作為基準模型,并引入文段問答框架,同時修改基準模型的編碼器和定位,最后添加上下文-查詢注意力模塊和條件文段預測器模塊。
3.根據權利要求1所述的文段問答框架下跨模態的時域視頻定位方法,其特征在于步驟4中的查詢可分注意力損失函數如下式:
其中是聯合了n步最終的查詢注意力權重矩陣,||·||F是矩陣的F范數,I表示單位矩陣;λ表示矩陣系數。
4.根據權利要求1所述的文段問答框架下跨模態的時域視頻定位方法,其特征在于所述的定位損失函數如下式:
其中fCE為交叉熵損失函數,Ys和Ye是起始邊界和終止邊界的真實值,Ps和Pe起始和終止邊界的預測值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學;四川大學,未經杭州電子科技大學;四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210606624.2/1.html,轉載請聲明來源鉆瓜專利網。





