[發明專利]面向文本到視頻片段定位的漸進式定位方法有效
| 申請號: | 202011164289.2 | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112380394B | 公開(公告)日: | 2022-05-10 |
| 發明(設計)人: | 董建鋒;鄭琪;彭敬偉;王勛 | 申請(專利權)人: | 浙江工商大學 |
| 主分類號: | G06F16/783 | 分類號: | G06F16/783;G06V20/40;G06V10/774;G06V10/82;G06K9/62;G06N3/04 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 劉靜 |
| 地址: | 310018 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 文本 視頻 片段 定位 漸進 方法 | ||
本發明公開了一種面向文本到視頻片段定位的漸進式定位方法,該方法包括:首先利用不同的特征提取方法分別提取視頻和文本這兩種模態的特征;接著漸近地選擇不同的步長,多階段地學習視頻和文本之間的相關性;最后結合各個階段的相關性損失,以端到端的方式訓練模型。同時,通過條件特征更新模塊和上采樣連接讓細時間粒度階段融合粗時間粒度階段的信息,使得不同階段之間相互促進。不同階段能關注不同時間粒度的片段,結合階段之間的相互聯系,使得模型能應對目標片段長度變化明顯的情況。本發明借鑒人類在處理片段定位任務的思維方式,采用一種由粗到細的方式,多階段、漸近地定位目標片段,在很大程度上提高了定位的性能。
技術領域
本發明涉及多媒體理解技術領域,尤其涉及一種面向文本到視頻片段定位的漸進式定位方法。
背景技術
近年來,由于互聯網和移動智能設備的普及以及通信和多媒體技術的迅速發展,每天都會有海量的視頻被創造并上傳至互聯網。面對如此龐大的視頻數據,如何從中快速且準確地找出用戶需求的視頻是一個艱巨的挑戰。傳統基于標簽的檢索無法適應視頻內容的多樣性,而基于文本的檢索只是得到整個視頻,并不能完全滿足用戶的需求,因為用戶感興趣的可能只是視頻中的一個片段。在這樣的背景下,基于文本的視頻片段定位任務被提出并受到研究者的關注,它的目標是根據查詢文本在一個完整的視頻中找到與之語義最相關的一個片段。用戶可以把自己感興趣的內容轉為文本描述,然后通過定位找到需要的片段或者整個視頻。
由于任務的開放性,即用戶感興趣的內容可長可短,目標片段的長度會存在很大的差異。絕大部分的現有研究都是先產生足量長度各異的候選片段,然后把它們分別與查詢文本進行比較,選擇最相關的一個候選片段作為最終視頻片段。在這種邏輯下,如何產生高質量的候選片段是解決這個任務的關鍵問題。絕大部分的現有研究都是先把視頻以固定步長分割成一系列時間上有序的基礎片段,然后組合那些時間上連續而長度各異的片段,得到各種長度的候選片段。在這種方式下,切割視頻的步長選取就顯得很重要,步長越大,分割產生的片段時間粒度越粗,得到的候選片段可能很難應對較短的目標片段;而更小的步長意味著分割產生的片段時間粒度更細,這樣能應對較短的目標片段,但會使候選片段包含更多的冗余信息,阻礙學習目標的優化。現有方法使用單獨的步長只能產生唯一粒度大小的片段,需要在應對能力和模型優化之間有所取舍,難以達到平衡。
發明內容
本發明針對現有技術的不足,采用了一種多階段、由粗到細的方法,提出了一個漸近式定位網絡。該網絡通過多階段地選擇不同大小的步長得到不同時間粒度的候選片段,每個階段都有一個定位分支,學習不同時間粒度候選片段和文本的相似性。同時通過條件特征更新(CFU,Conditional Feature Update)模塊和上采樣連接將粗時間粒度分支的學習信息傳遞到細時間粒度的分支,使模型能應對目標片段長度變化明顯的情況,在很大程度上提高了定位的性能。
本發明的目的是通過以下技術方案來實現的:一種面向文本到視頻片段定位的漸進式定位方法,該方法包括以下步驟:
(1)利用不同的特征提取方法分別提取視頻和文本的特征;
(2)粗時間粒度定位階段:以較大的步長對在步驟(1)中得到的視頻特征進行采樣,并產生候選片段;
(3)將步驟(2)中的候選片段和步驟(1)得到的文本特征融合;
(4)將融合后的特征經過卷積神經網絡得到粗粒度的特征矩陣,然后通過FC層得到相關性分數矩陣;
(5)細時間粒度定位階段:以較小的步長對在步驟(1)中得到的視頻特征進行采樣,結合步驟(4)中得到的特征矩陣通過條件特征更新模塊進行特征更新,然后產生候選片段;
(6)將步驟(5)中的候選片段和步驟(1)得到的文本特征融合,結合步驟(4)中得到的特征矩陣通過上采樣連接融合上階段的信息;
(7)將融合后的特征經過卷積神經網絡得到細粒度的特征矩陣,然后通過FC層得到相關性分數矩陣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工商大學,未經浙江工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011164289.2/2.html,轉載請聲明來源鉆瓜專利網。





