[發明專利]一種基于擦除機制的弱監督視頻片段檢索方法和系統有效
| 申請號: | 202110272729.4 | 申請日: | 2021-03-12 |
| 公開(公告)號: | CN112685597B | 公開(公告)日: | 2021-07-13 |
| 發明(設計)人: | 李昊沅;周楚程 | 申請(專利權)人: | 杭州一知智能科技有限公司 |
| 主分類號: | G06F16/732 | 分類號: | G06F16/732;G06F16/75;G06F16/783;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 311200 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 擦除 機制 監督 視頻 片段 檢索 方法 系統 | ||
本發明公開了一種基于擦除機制的弱監督視頻片段檢索方法和系統,屬于視頻片段檢索領域。本發明針對視頻?查詢語句,分別獲取語言特征和幀特征;構建語言感知的雙分支視覺過濾器,產生增強視頻流和抑制視頻流;構建基于動態擦除機制的雙分支共享候選網絡,產生積極候選片段和消極候選片段;在候選網絡的增強分支中引入動態擦除機制,并計算增強分數和抑制分數;采用多任務損失對語言感知的雙分支視覺過濾器和基于動態擦除機制的雙分支共享候選網絡進行訓練,得到訓練好的模型;針對待處理的查詢語句和視頻,利用訓練好的模型,將增強分支輸出的最高候選分數對應的片段作為最終檢索結果。本發明增強了視頻句子的匹配能力,提高了視頻檢索的性能。
技術領域
本發明涉及視頻片段檢索領域,尤其涉及一種基于擦除機制的弱監督視頻片段檢索方法和系統。
背景技術
視頻片段檢索是集計算機視覺和自然語言處理于一體的信息檢索系統中的一個新課題。給定一個未修剪的視頻和一個自然語言描述,視頻片段檢索的目的是定位與語義匹配目標片段的時間邊界。然而,大多數現有的方法都是在完全監督的環境中訓練的。這種手工注釋非常昂貴和耗時,特別是對于模棱兩可的描述。
現有的弱監督方法通常運用基于MIL或者基于重構的方法來訓練弱監督定位網絡。但是這兩種方法都有一些缺陷。前者通過定義一些初始的視覺語言對作為正樣本,構造不匹配的語言視覺對對作為負樣本,通過樣本間損失訓練潛在的視覺文本匹配。但是這種方法對隨機選擇的負樣本的質量要求很高,低質量的的樣本容易被識別,無法提供強烈的監督信號。另一方面,基于重構的方法嘗試在訓練中從視覺內容中重構查詢語句,并利用中間結果如注意力權重在推理的過程中定位候選目標。但是這些方法并不能直接優化被用來推理的視覺文本匹配分數。因為有較高注意力權重的候選并不一定與查詢句子有更高的關聯,這種間接優化會限制模型的性能,因此,現有的弱監督方法至少存在以下問題:
1)必須有高質量的的負樣本,低質量的的樣本容易被識別,無法提供強烈的監督信號;
2)無法直接優化被用來推理的視覺文本匹配分數,高注意力權重的候選并不一定與問題語句有高關聯度,這種間接優化會限制模型的性能。
擦除是抑制過擬合和增強模型魯棒性的有效數據增強方法,傳統的擦除方法通常用于圖像中,隨機選擇圖像中的區域,用圖像的0或平均值替換它們的像素,產生大量的新圖像進行訓練,但是對視頻圖像進行擦除對提高視頻-句子的匹配能力有限。本方法提出了一種新的具有擦除機制的正則化雙分支候選網絡,通過發現可信的負候選時刻構建細粒度的樣本內對抗,并通過注意引導的動態擦除來捕捉更完整的視覺-文本關系。
發明內容
為了克服現有技術中由于往往僅關注樣本間對抗,而忽略了樣本內對抗,易導致難以從似是而非的候選片段中選擇出正確的結果;以及現有技術中關注的視頻-句子對集中在幾個占主導地位的詞上,忽略了全局,易導致無法定位未出現在訓練數據中的且未經訓練的樣本,只能在訓練數據集中取得較高的準確率,實際應用性較差。本發明提供了一種基于擦除機制的弱監督視頻片段檢索方法和系統,可以高效準確地進行視頻片段檢索。
本發明通過構建雙分支候選模塊,兩個分支采用相同的結構,且分支之間參數共享,使模型更加輕巧和魯棒;通過構建動態擦除機制,擦除查詢句子中的占比較高的單詞,增強了視頻句子的匹配能力,提高了視頻檢索的性能。
為了實現上述目的,本發明采用的具體技術方案是:
本發明的其中一個目的在于提供一種基于擦除機制的弱監督視頻片段檢索方法,包括以下步驟:
1)針對視頻-查詢語句,獲取查詢語句的語言特征和視頻的幀特征;
2)構建語言感知的雙分支視覺過濾器,利用幀特征和語言特征得到視頻中每一幀的增強模態特征和抑制模態特征,構成增強視頻流和抑制視頻流;
3)構建基于動態擦除機制的雙分支共享候選網絡,包括增強分支和抑制分支;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州一知智能科技有限公司,未經杭州一知智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110272729.4/2.html,轉載請聲明來源鉆瓜專利網。





