[發(fā)明專利]一種利用文本進行視頻檢索的方法及裝置在審
| 申請?zhí)枺?/td> | 202310276552.4 | 申請日: | 2023-03-16 |
| 公開(公告)號: | CN116383439A | 公開(公告)日: | 2023-07-04 |
| 發(fā)明(設計)人: | 廖盛斌;張林 | 申請(專利權)人: | 華中師范大學 |
| 主分類號: | G06F16/783 | 分類號: | G06F16/783;G06V10/80;G06V10/74;G06V10/82;G06V20/40;G06N3/08;G06N3/0464 |
| 代理公司: | 武漢東喻專利代理事務所(普通合伙) 42224 | 代理人: | 李佑宏 |
| 地址: | 430079 *** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 文本 進行 視頻 檢索 方法 裝置 | ||
本發(fā)明提供一種利用文本進行視頻檢索的方法及裝置,屬于計算機技術領域,所述方法包括:將關鍵幀和參考文本特征輸入預設形變卷積網絡,利用參考文本特征指導預設形變卷積網絡生成動態(tài)感受野,以提取關鍵幀的視覺特征;利用動量蒸餾的對比學習方法,對視覺特征和參考文本特征進行特征對齊;將對齊后的視覺特征和參考文本特征輸入模態(tài)融合網絡,確定相似度最高的目標關鍵幀,作為視頻檢索結果。本發(fā)明在網絡結構上重新設計視頻數(shù)據(jù)的編碼器,并用文本作為參考特征,指導形變卷積網絡的感受野的生成,有效的解決了模型參數(shù)過大,訓練時損失函數(shù)下降困難,模態(tài)融合前特征不能充分對齊的問題,兼顧了利用文本檢索視頻的效率和準確率。
技術領域
本發(fā)明涉及計算機技術領域,尤其涉及一種利用文本進行視頻檢索的方法及裝置。
背景技術
近年來,由于互聯(lián)網和移動智能設備的普及以及通信和社交媒體技術的迅速發(fā)展,大量的網絡視頻數(shù)據(jù)被創(chuàng)造、上傳至互聯(lián)網上。在各個場景中,當人們需要從視頻中找自己想要的信息時,往往需要耗費大量時間。
卷積神經網絡是目前機器學習研究中一個新的熱點,也經常應用于視頻信息的檢索之中,其優(yōu)點在于通過多個串行的卷積層和池化層間隔排列,將原樣本數(shù)據(jù)逐層變換到一個新的特征空間中,從而實現(xiàn)特征的自動提取。但是傳統(tǒng)的卷積網絡,無差別的從左到右,從上到下掃過整個特征圖,這無疑浪費了大量的計算資源,要識別一個關鍵幀,往往只需要注意到一小塊關鍵的地方即可,注意力機制就是如此。但是基于注意力機制的結構往往有大量的參數(shù),并且缺少了卷積神經網絡的局部建模的能力,難以兼顧檢索的效率與準確率。
另外,申請?zhí)枮镃N202210529260.2的發(fā)明專利申請公開了一種基于多視覺專家知識蒸餾的侵權視頻檢索方法及系統(tǒng),其主要技術方案為:通過預訓練的視覺模型獲取視頻的初始特征,然后通過在目標數(shù)據(jù)集上對視頻的初始特征進行編碼訓練,并進行對比學習,得到特征具有更強任務適應性的視頻特征表示。接著設計知識融合方法將多種基礎檢索模型的知識進行融合,融合后的知識通過知識蒸餾的方式遷移到蒸餾檢索模型中。最終得到的融合了多位專家知識的蒸餾檢索模型具有更高的計算效率和更加優(yōu)越的性能。但是對比學習方法,需要大量的正負樣例,一個批量里的樣例顯然是不足的,而且視頻與視頻的融合是同模態(tài)的數(shù)據(jù)融合,且融合前無需對齊,應用場景也極為有限。
因此,迫切的需要一種新的技術方案解決上述問題,通過文本數(shù)據(jù)從冗長的視頻中直接提取到用戶所需的信息。
發(fā)明內容
本發(fā)明提供一種利用文本進行視頻檢索的方法,用以解決現(xiàn)有技術中的缺陷,兼顧了利用文本檢索視頻的效率和準確率。
第一方面,本發(fā)明提供一種利用文本進行視頻檢索的方法,包括:按照預設頻率從目標視頻中選取關鍵幀,并利用文本編碼器提取文本數(shù)據(jù)的參考文本特征;將關鍵幀和參考文本特征輸入預設形變卷積網絡,利用所述參考文本特征指導所述預設形變卷積網絡生成動態(tài)感受野,以提取關鍵幀的視覺特征;利用動量蒸餾的對比學習方法,維持一個特征隊列提供足夠多的負例樣本,以對所述視覺特征和所述參考文本特征進行特征對齊;將對齊后的視覺特征和參考文本特征輸入模態(tài)融合網絡,對選取的所有關鍵幀進行與文本數(shù)據(jù)的相似度排序,并確定相似度最高的目標關鍵幀,作為視頻檢索結果。
根據(jù)本發(fā)明提供的一種利用文本進行視頻檢索的方法,按照預設頻率從目標視頻中提取關鍵幀,包括:按照固定間隔選幀和隨機選幀的方式,提取所有的關鍵幀;其中,固定間隔選幀是指按照固定時間間隔選擇目標視頻的關鍵幀;隨機選幀是指在每個進行固定間隔選幀的時間區(qū)間內隨機選取兩幀作為關鍵幀。
根據(jù)本發(fā)明提供的一種利用文本進行視頻檢索的方法,所述文本編碼器為Bert網絡模型的前六層,用于提取文本數(shù)據(jù)的參考文本特征;所述Bert網絡模型的前六層的輸入為文本數(shù)據(jù)的詞向量、位置編碼以及語義編碼;所述Bert網絡模型一共包括12層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中師范大學,未經華中師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310276552.4/2.html,轉載請聲明來源鉆瓜專利網。





