[發明專利]基于頻域先驗的視頻顯著性目標檢測方法有效
| 申請號: | 201911301702.2 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN111178188B | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 袁夏;張亞楠 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/46;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 陳鵬 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 先驗 視頻 顯著 目標 檢測 方法 | ||
1.一種基于頻域先驗的視頻顯著性目標檢測方法,其特征在于,包括以下步驟:
步驟1、針對當前時刻的視頻幀,構建對應的四元數圖像,并對四元數圖像進行超復數傅里葉變換,得到振幅譜和相位譜,并在頻域對四元數圖像進行顯著性分析,通過將振幅譜置為1,僅將相位譜進行傅里葉逆變換得到頻域顯著性先驗信息;
步驟2、構建基于VGG16的雙分支對稱全卷積神經網絡的靜態模塊,提取當前視頻幀的局部特征并通過雙分支的層級整合經反卷積得到靜態圖像顯著性檢測結果;具體方法如下:
步驟2-1、以VGG16作為靜態模塊中對稱卷積神經網絡的基礎架構,移除VGG16中第五個卷積塊的池化層以及VGG16中的全連接層,每個卷積層后添加一個批量歸一化層BN使得特征數據在同一數據分布中,并且每個卷積層后使用Relu作為激活函數;
步驟2-2、對于靜態模塊中的反卷積部分,劃分為四個反卷積塊,前四個反卷積塊都由一個1*1卷積層Convlution2d和一個2*2轉置卷積層ConvTranspose2d構成,并使用Relu作為激活函數,最后一個反卷積塊由一個1*1卷積層和一個3*3卷積層組成;
步驟2-3、用ImageNet預訓練的VGG16模型初始化靜態模塊中的網絡權重,對于第一層卷積的權重,由于輸入通道不同,用VGG16第一個卷積層權重的平均值進行初始化;
步驟2-4、設置初始學習率lr=1e-5,此后每迭代50次學習率lr=lr*0.1,設置損失函數Loss、優化器optimizer使用Adam的隨機梯度下降法、迭代次數epoch和batch_size,損失函數如式(16):
式中,n為圖像的像素總數,Gt(x)為當前t時刻視頻幀的真值,yt′(x)為靜態視頻幀顯著性檢測結果;
步驟2-5、使用圖像顯著性檢測數據集MSRA10K、DUT-OMRON訓練靜態模塊的雙分支對稱卷積神經網絡,原始圖像It(x,y)以及其所對應的頻域顯著性分析結果級聯后形成四通道輸入作為對稱卷積神經網絡的左分支,原圖的取反-It(x,y)作為右輸入分支,通過對稱卷積神經網絡進行視頻幀的特征提取,并通過反卷積結構對提取的雙分支特征圖進行層級整合后通過反卷積和上采樣,得到靜態圖像顯著性檢測結果;
步驟3、構建基于VGG16的全卷積神經網絡的動態模塊,聯合步驟2中得到的靜態圖像顯著性檢測結果,進行動態模塊訓練并得到視頻顯著性目標檢測結果;其中,建立獲取視頻幀的最終視頻顯著性結果的動態模塊,具體包括以下步驟:
步驟3-1、以VGG16作為全卷積神經網絡的基礎架構,移除VGG16中第五個卷積塊的池化層以及VGG16中的全連接層,每個卷積層后使用Relu作為激活函數;
步驟3-2、對于動態模塊中的反卷積部分,劃分為四個反卷積塊,前四個反卷積塊都由兩個3*3卷積層和一個Upsampling層構成,卷積層后使用Sigmoid作為激活函數;
步驟3-3、用ImageNet預訓練的VGG16初始化動態模塊中的網絡權重,對于第一層不同通道的使用VGG16第一層的權重的平均值進行初始化;
步驟3-4、設置初始學習率lr=1e-5、損失函數Loss為MSE、優化器Adam、迭代次數和batch_size,損失函數如式(17):
式中,n為圖像的像素總數,Gt(x)為當前t時刻視頻幀的真值,yt″(x)為動態的視頻顯著性檢測結果;
步驟3-5、將視頻顯著性檢測數據集DAVSOD-train、SegtrackV2、DAVIS 2016作為動態模塊的訓練數據集,首先,將同一類別的視頻序列中的連續九幀圖像在空間上進行拼接,經過四元數傅里葉變換和反變換得到頻域顯著性先驗信息,通過靜態模塊得到靜態圖像顯著性結果,隨后將當前視頻幀、頻域顯著性先驗以及靜態圖像顯著性圖級聯后形成5通道作為動態模塊的輸入;
步驟4、應用當前已標注的、覆蓋多種類的圖像和視頻顯著性檢測數據集訓練靜態模塊和動態模塊。
2.根據權利要求1所述的基于頻域先驗的視頻顯著性目標檢測方法,其特征在于,根據步驟1中的針對當前t時刻的視頻幀It(x,y),構建它所對應的四元數圖像qt(u,v),并對四元數圖像進行超復數傅里葉變換F(qt)和反變換F′(qt),得到頻域顯著性先驗信息sM(t),具體步驟如下:
步驟1-1、對當前t時刻的視頻幀It(x,y),x,y表示圖像在空間域的像素位置,對圖像的r(t)、g(t)、b(t)三個顏色通道,經式(1)~(4)的計算,得到四個寬調諧顏色通道:紅色R(t)、綠色G(t)、藍色B(t)、黃色Y(t);
R(t)=r(t)-(g(t)+b(t))/2 (1)
G(t)=g(t)-(r(t)+b(t))/2 (2)
B(t)=b(t)-(r(t)+g(t))/2 (3)
步驟1-2、根據步驟1-1得到的四個顏色通道以及視覺系統中雙色對立原理,計算四元數特征:雙顏色特征RG(t)和BY(t)、強度特征I(t)、運動特征M(t),如式(5)~(8)所示:
RG(t)=R(t)-G(t) (5)
BY(t)=B(t)-Y(t) (6)
I(t)=r(t)+g(t)+b(t) (7)
M(t)=|I(t)-I(t-τ)| (8)
式中,參數τ是一個延遲系數,代表與t時刻視頻幀相鄰τ幀的視頻幀;
步驟1-3、根據四元數特征得到當前視頻幀It(x,y)的四元數圖像qt(x,y),如式(9):
qt(x,y)=M(t)+RG(t)μ1+BY(t)μ2+I(t)μ3 (9)
將qt(x,y)用另一種表達式表示如下:
qt(x,y)=f1(t)+f2(t)μ2
f1(t)=M(t)+RG(t)μ1
f2(t)=BY(t)+I(t)μ1
式中,μi為超復數的虛部單位,且滿足i∈{1,2,3},μ1⊥μ2,μ2⊥μ3,μ1⊥μ3,μ3=μ1μ2;
步驟1-4、將四元數圖像qt(x,y)=f1(t)+f2(t)μ2進行超復數傅里葉變換,超復數傅里葉變換后的視頻幀表示如式(10)所示,并得到變換后四元數圖像對應的振幅譜和相位譜,如式(10)~(11):
Qt(u,v)=F1(u,v)+F2(u,v)μ2 (10)
式中,M,N表示視頻幀寬度和高度上的像素數目,u,v為圖像在頻域中像素的位置,Qt(u,v)表示四元數圖像經過超復數傅里葉變換后的結果,j∈{1,2},fj(x,y)和上述的fj(t)一致;
步驟1-5、將圖像It(x,y)從時域變換到頻域Qt(u,v),其極坐標表示為Qt=‖Qt‖eμΦ(t) (12)
式中,Φ(t)是Qt的相位譜,μ是純四元數的單元,‖Qt‖是Qt的振幅譜,將‖Qt‖=1,然后通過式(13)將圖像從頻域反變換到時域進行超復數傅里葉反變換;
步驟1-6、通過超復數傅里葉反變換以后的四元數圖像表示為qt′=a(t)+b(t)μ1+c(t)μ2+d(t)μ3,其中a(t)為超復數的實數部分,b(t)、c(t)、d(t)為虛數;
步驟1-7、通過上述步驟,得到當前視頻幀的頻域顯著性分析結果
sM(t)=g(x,y)*‖qt′‖2 (14)
式中,g(x,y)是一個用來抑制噪聲的2D高斯濾波器,σ為代表數據離散程度的標準差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911301702.2/1.html,轉載請聲明來源鉆瓜專利網。





