[發明專利]一種基于多視覺專家知識蒸餾的侵權視頻檢索方法及系統有效
| 申請號: | 202210529260.2 | 申請日: | 2022-05-16 |
| 公開(公告)號: | CN114625924B | 公開(公告)日: | 2022-08-26 |
| 發明(設計)人: | 紀守領;馬哲;董建鋒;劉豐豪;張旭鴻;蒲譽文;陳建海;楊星 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/783 | 分類號: | G06F16/783;G06F16/71;G06V20/40;G06V10/74;G06V10/774;G06V10/80;G06V10/82;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視覺 專家 知識 蒸餾 侵權 視頻 檢索 方法 系統 | ||
1.一種基于多視覺專家知識蒸餾的侵權視頻檢索方法,其特征在于,包括以下步驟:
步驟1:構建多個預訓練的視覺專家模型,利用預訓練的多視覺專家模型分別對視頻進行特征抽取,獲得視頻的幀級初始特征;
步驟2:利用多個基礎檢索模型對視頻的幀級初始特征進行編碼,獲得幀級編碼特征表示,并通過時序平均池化計算視頻級特征;
步驟3:構造訓練數據集,提取訓練數據的視頻級特征,采用對比學習方法對所述的多個基礎檢索模型進行訓練,根據每一個訓練好的基礎檢索模型得到一個相似度度量函數,取多個相似度度量函數的均值作為融合的專家知識;
步驟4:構建蒸餾檢索模型,并通過訓練將融合的專家知識蒸餾到蒸餾檢索模型中;所述的步驟4具體為:
步驟4.1:構建與基礎檢索模型結構相同的蒸餾檢索模型;
步驟4.2:采用步驟3所述的訓練數據集對蒸餾檢索模型進行知識蒸餾訓練和對比學習訓練,所述的知識蒸餾訓練的損失函數為:
其中,Ldistill表示知識蒸餾損失,Ei[.]表示遍歷所有的負樣本對求期望,表示L2范數的平方,s*(.)為蒸餾檢索模型的相似度量函數,為所有基礎檢索模型的相似度度量函數的均值,Xq為目標視頻,Xi為對目標視頻Xq不構成侵權關系的視頻,N為訓練數據集中對目標視頻Xq不構成侵權關系的視頻的數量,(Xq,Xi)作為負樣本對;
所述蒸餾檢索模型的對比學習訓練過程與基礎檢索模型的對比學習訓練過程相同;將知識蒸餾訓練與對比學習訓練的損失函數的加權值作為總損失,完成訓練過程;
步驟5:基于訓練好的蒸餾檢索模型,實現侵權視頻檢索。
2.根據權利要求1所述的基于多視覺專家知識蒸餾的侵權視頻檢索方法,其特征在于,所述的視頻的幀級初始特征表示為其中K為預訓練的視覺專家模型的數量,n為從視頻中抽取的幀圖像的數量,為第k種預訓練的視覺專家模型抽取的第t幀圖像的特征向量。
3.根據權利要求2所述的基于多視覺專家知識蒸餾的侵權視頻檢索方法,其特征在于,所述的視頻級特征表示為:
其中,φk(.)為第k個基礎檢索模型,為幀級編碼特征表示,為第k個基礎檢索模型對第t幀圖像的幀級編碼特征,為第k個基礎檢索模型對應的視頻級特征。
4.根據權利要求1所述的基于多視覺專家知識蒸餾的侵權視頻檢索方法,其特征在于,步驟3所述的訓練數據集表示為{Xq,X+,X1,X2,…,Xi,…,XN},其中,Xq為目標視頻,X+為對目標視頻Xq構成侵權關系的視頻,(Xq,X+)作為正樣本對;Xi,i=1,2,…,N為對目標視頻Xq不構成侵權關系的視頻,N為訓練數據集中對目標視頻Xq不構成侵權關系的視頻的數量,(Xq,Xi)作為負樣本對。
5.根據權利要求4所述的基于多視覺專家知識蒸餾的侵權視頻檢索方法,其特征在于,采用對比學習方法對所述的多個基礎檢索模型進行訓練時,計算正樣本對和負樣本對的視頻級特征,根據兩個視頻的相似度計算對比損失函數:
其中,Lcst表示對比學習損失,sk(.)為第k個基礎檢索模型的相似度度量函數,sk(Xq,X+)為第k個基礎檢索模型輸出的正樣本對的視頻級特征向量的相似度,sk(Xq,Xi)為第k個基礎檢索模型輸出的負樣本對的視頻級特征向量的相似度,E[.]為求期望運算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210529260.2/1.html,轉載請聲明來源鉆瓜專利網。





