[發明專利]一種基于聯邦學習的視頻片段檢索方法及系統有效
| 申請號: | 202210849763.8 | 申請日: | 2022-07-20 |
| 公開(公告)號: | CN114925238B | 公開(公告)日: | 2022-10-28 |
| 發明(設計)人: | 羅昕;王妍;王娜;陳振鐸;許信順 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F16/783 | 分類號: | G06F16/783;G06F16/78;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250000 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聯邦 學習 視頻 片段 檢索 方法 系統 | ||
1.一種基于聯邦學習的視頻片段檢索方法,其特征在于,包括:
獲取查詢語句以及預先指定的待檢索視頻;
將所述查詢語句以及待檢索視頻輸入預先訓練的視頻檢索模型,獲得所述查詢語句對應的視頻片段;
其中,所述視頻檢索模型的訓練,采用串行學習策略的聯邦學習方法,具體包括:對于攜帶有不同訓練數據的若干客戶端,使客戶端按照預設順序逐個的對所述視頻檢索模型進行局部訓練,前一個客戶端訓練的局部模型參數傳輸至下一個客戶端并作為其模型訓練的初始化參數;所有客戶端完成訓練后,將所有的局部模型參數傳輸至中心服務器進行聚合,獲得當前輪次的全局模型參數,并將所述全局模型參數下發至所述客戶端繼續迭代執行,直至滿足預設迭代要求;
考慮到模型訓練的效率,將若干客戶端進行分組,所述客戶端在組內按照預設順序逐個執行模型的訓練,組間并行執行模型的訓練;
所述視頻檢索模型在客戶端中進行局部訓練的過程中,基于客戶端內樣本的時序類別分布,引入分布差異損失函數參與客戶端的模型更新,其中,所述分布差異損失函數具體表示如下:
其中,表示所有時序類別的集合,x表示中的某一個時序類別,為客戶端k預測的時序類別分布,為真實的總體時序類別分布;
通過考慮起始時間點是屬于視頻的前半部分還是后半部分將樣本分類為2個類別,同樣地,考慮結束時間點在視頻的前半部分還是后半部分,將樣本分為2個類別,在同時考慮開始時間點和結束時間點位置的情況下,將整個數據集劃分為4個時序類別。
2.如權利要求1所述的一種基于聯邦學習的視頻片段檢索方法,其特征在于,所述將所有的局部模型參數傳輸至中心服務器進行聚合,具體為:基于客戶端上傳至中心服務器的部分數據集對其訓練的模型進行測試,基于測試結果的交并比指標確定當前客戶端局部模型參數的加權權重;基于所述加權權重以及當前客戶端對應的局部模型參數實現模型參數的聚合。
3.如權利要求1所述的一種基于聯邦學習的視頻片段檢索方法,其特征在于,所述視頻檢索模型具體為:輸入經過3D卷積網絡提取的視覺特征,以及經詞嵌入網絡提取的文本特征;分別使用線性層和LSTM網絡將視覺特征和文本特征映射到同一特征空間;將同一特征空間下的視覺特征和文本特征級聯,獲得跨模態特征表示;經另一層LSTM網絡轉化后,放入分數預測網絡獲得不同時序點的分數,同時,放入索引預測網絡獲得預測的起止時間點;其中,所述分數預測網絡及索引預測網絡均采用全連接層。
4.如權利要求1所述的一種基于聯邦學習的視頻片段檢索方法,其特征在于,所述視頻檢索模型輸出的視頻片段表現為視頻片段的起始時間點和結束時間點。
5.一種基于聯邦學習的視頻片段檢索系統,其特征在于,包括:
數據獲取單元,其用于獲取查詢語句以及預先指定的待檢索視頻;
視頻檢索單元,其用于將所述查詢語句以及待檢索視頻輸入預先訓練的視頻檢索模型,獲得所述查詢語句對應的視頻片段;
其中,所述視頻檢索模型的訓練,采用串行學習策略的聯邦學習方法,具體包括:對于攜帶有不同訓練數據的若干客戶端,使客戶端按照預設順序逐個的對所述視頻檢索模型進行局部訓練,前一個客戶端訓練的局部模型參數傳輸至下一個客戶端并作為其模型訓練的初始化參數;所有客戶端完成訓練后,將所有的局部模型參數傳輸至中心服務器進行聚合,獲得當前輪次的全局模型參數,并將所述全局模型參數下發至所述客戶端繼續迭代執行,直至滿足預設迭代要求;
考慮到模型訓練的效率,將若干客戶端進行分組,所述客戶端在組內按照預設順序逐個執行模型的訓練,組間并行執行模型的訓練;
所述視頻檢索模型在客戶端中進行局部訓練的過程中,基于客戶端內樣本的時序類別分布,引入分布差異損失函數參與客戶端的模型更新,其中,所述分布差異損失函數具體表示如下:
其中,表示所有時序類別的集合,x表示中的某一個時序類別,為客戶端k預測的時序類別分布,為真實的總體時序類別分布;
通過考慮起始時間點是屬于視頻的前半部分還是后半部分將樣本分類為2個類別,同樣地,考慮結束時間點在視頻的前半部分還是后半部分,將樣本分為2個類別,在同時考慮開始時間點和結束時間點位置的情況下,將整個數據集劃分為4個時序類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210849763.8/1.html,轉載請聲明來源鉆瓜專利網。





