[發明專利]基于多模態特征融合的高效視頻檢索模型在審
| 申請號: | 202210210095.4 | 申請日: | 2022-03-04 |
| 公開(公告)號: | CN114564616A | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 劉志;張萌萌 | 申請(專利權)人: | 北方工業大學 |
| 主分類號: | G06F16/78 | 分類號: | G06F16/78;G06F16/783;G06V10/44;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100144 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多模態 特征 融合 高效 視頻 檢索 模型 | ||
本文提出了一種視頻檢索框架,其包括:視頻編碼器,其獲得輸入視頻的視頻特征表示,包括:多個NetVLAD網絡,每個NetVLAD網絡包括卷積神經網絡(CNN)和NetVLAD層,聯接器,其接收所述多個NetVLAD網絡的輸出,全連接網絡,其接收所述聯接器的輸出;文本編碼器,其獲得輸入文本的文本特征表示;相似度計算單元,其計算所述視頻特征表示與所述文本特征表示之間的相似度,以用于確定視頻和文本的匹配。
技術領域
本發明涉及視頻處理技術和神經網絡在視頻處理領域中的應用,更具體而言,本發明涉及用于基于神經網絡的視頻檢索的方法、設備和介質。本發明特別適合于在線視頻的檢索。
背景技術
由于視頻捕獲動態事件和提供直接視覺和聲音感受的能力,視頻成為最常用的媒體形式之一。目前,在線視頻在視頻應用中占據了越來越大的比例。各個在線視頻平臺中存在數以億小時計的視頻(或短視頻),如果我們不能高效地訪問這些視頻,則這些視頻就無法得到有效地利用。因此,如何通過檢索來檢索相關視頻成為關鍵。
針對數以百萬計的視頻,顯然不可能完全通過人工方式對視頻附加合理的標題和內容描述。即使是每個視頻在制作時被創造者添加了標題和內容描述,這種標題和內容描述可能也不能完整地概況視頻內容用于后續的視頻檢索。因此,目前大量研究集中在如何使用神經網絡來進行高效地視頻檢索。
對于視頻檢索,目前存在兩種任務:“標題到視頻”和“視頻到標題”?!皹祟}到視頻”是指給出標題形式的檢索(例如,“如何蓋房子”),檢索目標則是該標題能夠最佳描述的視頻(例如,解釋如何蓋房子的視頻)。這里的“標題”應該表示視頻標題、視頻表述文字等等與視頻內容相關聯的各種文本。這里的“視頻”狹義上包括隨時間采集的圖片集(即視覺視頻),廣義上則包括視覺視頻、音頻、語音、字幕(嵌入式或單獨的字幕文件)、各種音軌(嵌入式或單獨的音軌文件)、相關封面(例如DVD光盤中使用的電影封面)、時間標簽、位置標簽、視頻片段(例如,DVD和藍光光盤中使用的視頻片段)、與視頻片段相關的各種信息(例如,用于視頻片段的封面、時間標簽、子標題、內容描述等等)等等能夠形成現有各種視頻內容的成分。在線視頻的示例可以是YouTube、抖音、Tiktok、嗶哩嗶哩(bilibili)上的各種短視頻。
對于“標題到視頻”任務,針對每個具體檢索,通過給定“標題-視頻”對的集合,并對所有視頻候選進行排序來使得與該標題最相關的視頻順序最高來實現。另一方面,“視頻到標題”任務的目的則是在一組標題候選中找到能夠最佳地描述所檢索的視頻的標題(檢索目標)。
針對以上兩種視頻檢索的公共方法是相似度學習,即我們如何學習能夠最佳地描述兩個元素(即,查詢與候選)之間的相似度的函數。然后,我們就能夠根據各個候選與查詢之間的相似度(相似度估計)來對候選(視頻或標題)進行排序。
因此,目前視頻檢索的主流框架包括三個部分:視頻編碼器、文本編碼器、相似度估計。視頻編碼器獲得輸入視頻的視頻特征表示;文本編碼器獲得輸入文本(即,標題,視頻表述文字等等與視頻內容相關聯的文本)的文本特征表示;相似度計算則通過計算所述視頻特征表示與所述文本特征表示之間的相似度來找到匹配的視頻和文本。這樣就將相似度學習拆分為視頻編碼器和文本編碼器的學習以及相似度估計函數。
例如,在相似度學習(即訓練階段)中,假設X代表用于訓練的視頻集合,Y代表所有視頻的相關標題(本文中也稱為“文本”)。給定B對數據{(v1,c1),…,(vi,ci),…,(vB,cB)}的學習數據庫,其中vi∈X,ci∈Y,相似度學習就是找到視頻特征表示Fv和文本特征表示Fc,通過比較相似度分數找到匹配的視頻和文本。公式表示如下:
s=d(Fv(vi),Fc(cj)) (1)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北方工業大學,未經北方工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210210095.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:全自動ICT檢測設備
- 下一篇:全自動ICT檢測設備的壓床檢測機構





