[發明專利]基于非關鍵幀擾動的視頻序列樣本增強方法在審
| 申請號: | 202210808388.2 | 申請日: | 2022-07-11 |
| 公開(公告)號: | CN115205741A | 公開(公告)日: | 2022-10-18 |
| 發明(設計)人: | 柯逍;劉浩 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V20/52;G06V40/10;G06V10/774;G06V10/82;G06N3/08 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 丘鴻超;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關鍵 擾動 視頻 序列 樣本 增強 方法 | ||
1.一種基于非關鍵幀擾動的視頻序列樣本增強方法,其特征在于,包括以下步驟:
步驟S1:在網絡訓練過程中,將輸入視頻序列樣本送入視頻行人重識別網絡模型中,并根據網絡輸出結果計算損失;
步驟S2:對視頻序列樣本計算其梯度方向;
步驟S3:對視頻序列中每一個視頻幀計算該視頻幀下的梯度方向絕對值的總和;
步驟S4:根據視頻序列中每一幀的總和值,計算獲得視頻序列中前n_k個總和值最大的幀的索引,并視為此視頻序列中的關鍵幀;
步驟S5:根據關鍵幀的索引,對視頻序列中其他非關鍵幀進行隨機高斯噪聲擾動;
步驟S6:經過擾動后的非關鍵幀替換掉原視頻序列中對應索引的幀,構建新的視頻序列樣本,再次送入視頻重識別網絡中進行后續訓練。
2.根據權利要求1所述的基于非關鍵幀擾動的視頻序列樣本增強方法,其特征在于,步驟S1具體為:
步驟S11:在網絡訓練過程中,將輸入視頻序列樣本n_x送入視頻行人重識別網絡模型中,由網絡模型中的分類器獲得分類分數n_α,其中n_x的形狀為5維張量,分別是批次,幀數,通道數,高度,寬度;
步驟S12:根據分類分數n_α和視頻序列樣本類別標簽值n_y,通過交叉熵損失函數計算損失,并進行損失反向傳播,公式如下所示:
其中是n_α的梯度,J()是交叉熵損失函數,model_θ表示網絡參數。
3.根據權利要求1所述的基于非關鍵幀擾動的視頻序列樣本增強方法,其特征在于,步驟S2具體為,對視頻序列樣本計算其梯度方向n_v,公式如下所示,其中n_v的形狀如輸入視頻序列樣本n_x,sign()表示對梯度方向進行符號計算,對于大于0的梯度,輸出為1,對于小于0的梯度,輸出為-1,對于等于0的梯度,輸出為0:
4.根據權利要求1所述的基于非關鍵幀擾動的視頻序列樣本增強方法,其特征在于,步驟S3具體為,對視頻序列中每一個視頻幀計算該視頻幀下的梯度方向n_v絕對值的總和,公式如下所示,abs()表示對輸入的梯度方向n_v的值取絕對值,sum()表示對輸入的梯度方向n_v的絕對值求和,dim表示sum()選擇的維度,dim=[2,3,4]表示選擇通道數,高度,寬度;
sumn_v=sum(abs(n_v)),dim=[2,3,4]。
5.根據權利要求1所述的基于非關鍵幀擾動的視頻序列樣本增強方法,其特征在于,步驟S4具體為,根據視頻序列中每一幀的總和值sumn_v,計算獲得視頻序列中前n_k個總和值最大的幀的索引keyindex,并將索引對應的幀視為此視頻序列中的關鍵幀,其余為非關鍵幀,公式如下所示,topk()表示獲取sumn_v中前n_k個最值,dim表示topk()選擇的維度,dim=[1]表示根據每個批次的求和結果進行排序;
keyindex=topk(sumn_v),dim=[1]。
6.根據權利要求1所述的基于非關鍵幀擾動的視頻序列樣本增強方法,其特征在于,步驟S5中,根據關鍵幀的索引keyindex,對視頻序列中其他非關鍵幀進行隨機高斯噪聲擾動,公式如下所示,其中隨機高斯噪聲noise_δ服從一個數學期望為μ、標準方差為σ2的高斯分布N,形狀大小如視頻序列n_x,zero_like()表示生成與輸入數據形狀相同的全0的數據:
noise_δ~N(μ,σ2)
noise_δ[keyindex]=zero_like(noise_δ[keyindex])。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210808388.2/1.html,轉載請聲明來源鉆瓜專利網。





