[發明專利]多粒度級聯交互網絡的跨模態時序行為定位方法及裝置有效
| 申請號: | 202210052687.8 | 申請日: | 2022-01-18 |
| 公開(公告)號: | CN114064967B | 公開(公告)日: | 2022-05-06 |
| 發明(設計)人: | 王聰;鮑虎軍;宋明黎 | 申請(專利權)人: | 之江實驗室 |
| 主分類號: | G06F16/735 | 分類號: | G06F16/735;G06F16/78;G06F16/783;G06N3/04;G06N3/08;H04N19/149;H04N19/21 |
| 代理公司: | 杭州浙科專利事務所(普通合伙) 33213 | 代理人: | 孫孟輝;楊小凡 |
| 地址: | 310023 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 粒度 級聯 交互 網絡 跨模態 時序 行為 定位 方法 裝置 | ||
1.一種多粒度級聯交互網絡的跨模態時序行為定位方法,其特征在于包括以下步驟:
步驟S1:給定未修剪的視頻樣本,利用視覺預訓練模型進行視頻表征的初步提取,并采用局部-全局的方式,對初步提取后的視頻表征進行上下文感知的時序依賴編碼,得到最終的視頻表征;基于視覺預訓練模型,以離線方式提取視頻幀特征并均勻地采樣T幀,然后經過線性變換層,獲取一組視頻表征,為視頻第i幀的表征,進而對視頻表征采用局部-全局的方式,進行上下文感知的時序依賴編碼;局部-全局上下文感知編碼方式,首先對視頻表征進行局部上下文感知編碼,得到視頻表征;然后對視頻表征進行全局上下文感知編碼,得到視頻表征;局部上下文感知編碼和全局上下文感知編碼,分別以如下方式進行實施:
步驟S1.1,局部上下文感知編碼采用一組配備一維偏移窗口的連續局部變壓器塊,將視頻表征作為初始表征,輸入第一塊一維偏移窗口的連續局部變壓器塊,將得到的結果輸入第二塊一維偏移窗口的連續局部變壓器塊,以此類推,將最后一塊一維偏移窗口的連續局部變壓器塊的輸出,作為局部上下文感知編碼輸出的視頻表征;一維偏移窗口的連續局部變壓器塊內部操作如下:
對獲取的視頻表征進行層標準化后,通過一維窗口多頭自注意力模塊,將得到的結果與視頻表征相加,得到視頻表征;對視頻表征進行層標準化后,通過多層感知器,將得到的結果與視頻表征相加,得到視頻表征;對視頻表征進行層標準化后,通過一維偏移窗口多頭自注意力模塊,將得到的結果與視頻表征相加,得到視頻表征;對視頻表征進行層標準化后,通過多層感知器,將得到的結果與視頻表征相加,輸出視頻表征作為一維偏移窗口的連續局部變壓器塊的輸出,表示第塊配備一維偏移窗口的連續局部變壓器塊;
步驟S1.2,全局上下文感知編碼包括一組常規變壓器塊,將視頻表征做出初始表征輸入第一塊常規變壓器塊,將得到的結果輸入第二塊常規變壓器塊,以此類推,將最后一塊常規變壓器塊的輸出,作為全局上下文感知編碼輸出視頻表征;常規變壓器塊內部操作如下:
獲取的視頻表征,通過常規多頭自注意力模塊后,將得到的結果與視頻表征相加后,再進行層標準化,得到視頻表征;視頻表征通過多層感知器后,將得到的結果與視頻表征相加后,再進行層標準化,得到的視頻表征作為常規變壓器塊的輸出,表示第塊常規變壓器塊;
步驟S2:對于未修剪視頻相應的文本查詢,采用預訓練的詞嵌入模型,對查詢文本中各個單詞進行詞嵌入初始化,然后采用多層雙向長短時記憶網絡,進行上下文編碼,得到文本查詢的單詞級表征和全局級表征;
步驟S3:對于已提取的視頻表征和文本查詢表征,采用多粒度級聯交互網絡進行視頻模態和文本查詢模態間的交互,得到查詢引導的增強化視頻表征;
步驟S4:對于經過多粒度級聯交互后得到的增強化視頻表征,采用基于注意力的時序位置回歸模塊,預測文本查詢相應的目標視頻片段時序位置;
步驟S5:對于步驟S1~S4所組成的基于多粒度級聯交互網絡的跨模態時序行為定位模型,利用訓練樣本集進行該模型的訓練,訓練時所采用的總損失函數包括注意力對齊損失和邊界損失,其中,邊界損失包括平滑 損失和時序廣義交并比損失。
2.根據權利要求1所述的多粒度級聯交互網絡的跨模態時序行為定位方法,其特征在于所述步驟S2中,查詢文本中每個單詞對應的可學習詞嵌入向量,使用預訓練的詞嵌入模型進行初始化,得到文本查詢的嵌入向量序列,為視頻第i個單詞的表征,通過多層的雙向長短時記憶網絡,對文本查詢的嵌入向量序列進行上下文編碼,得到查詢的單詞級文本查詢表征,通過的前向隱狀態向量和的后向隱狀態向量的拼接,得到全局級文本查詢表征,最終得到文本查詢表征。
3.根據權利要求1所述的多粒度級聯交互網絡的跨模態時序行為定位方法,其特征在于所述步驟S3中的多粒度級聯交互網絡,首先將視頻表征和文本查詢表征,通過視頻引導的查詢解碼,得到視頻引導的查詢表征,表示全局級視頻引導的查詢表征,表示單詞級視頻引導的查詢表征,然后將視頻引導的查詢表征與視頻模態表征,通過級聯跨模態融合,得到最終的增強化視頻表征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室,未經之江實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210052687.8/1.html,轉載請聲明來源鉆瓜專利網。





