[發明專利]一種深度感知和多模態自動融合的RGB-D顯著性目標檢測方法有效
| 申請號: | 202011504271.2 | 申請日: | 2020-12-18 | 
| 公開(公告)號: | CN112651406B | 公開(公告)日: | 2022-08-09 | 
| 發明(設計)人: | 李璽;張文虎;孫鵬 | 申請(專利權)人: | 浙江大學 | 
| 主分類號: | G06V10/46 | 分類號: | G06V10/46;G06V10/80;G06V10/56;G06V10/82;G06N3/04;G06N3/08 | 
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 傅朝棟;張法高 | 
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 一種 深度 感知 多模態 自動 融合 rgb 顯著 目標 檢測 方法 | ||
1.一種深度感知和多模態自動融合的RGB-D顯著性目標檢測方法,其特征在于包括以下步驟:
S1、獲取訓練任務的圖像數據集;
S2、分別建立用于提取彩色圖像與深度圖像的深度神經網絡;
S3、建立用于多模態自動融合的超網絡結構;
S4、基于所述的超網絡結構進行神經網絡結構搜索以確定模型結構;
S5、基于所述搜索結果進行預測模型訓練,并得到最終的訓練好的神經網絡模型;
S6:將待檢測的彩色圖像與深度圖像輸入訓練好的神經網絡模型中,預測圖中的顯著性目標;
所述S2包括以下子步驟:
S21、對于每個單幀彩色圖像Itrain,其特征提取的深度神經網絡由VGG19網絡結構與4個插入的DSAM模塊構成;其中第i個DSAM模塊以VGG19的第i個卷積模塊的輸出r′i作為輸入,其輸出作為VGG19的第i+1個卷積模塊的輸入,i∈{1,2,3,4};在i個DSAM模塊中,首先根據對應的深度圖像Dtrain的頻數直方圖將深度圖像拆解為三個部分并通過最大池化層來得到與ri維度相同的三個子圖像然后通過如下操作獲得深度感知的彩色圖像特征Ri:
式中Conv表示1×1的卷積模型;
四個DSAM模塊的輸出r1、r2、r3、r4以及VGG19的第五個卷積模塊的輸出r5共同構成彩色圖像的多尺度特征,用于后續多模態多尺度的特征自動融合;
S22、每個對應的深度圖像Dtrain,使用一個輕量級的深度神經網絡對深度圖像進行特征提取,該深度神經網絡共由五個級聯的卷積模塊組成,其輸出的多尺度深度圖特征d1、d2、d3、d4、d5將用于后續多模態多尺度的特征自動融合;
所述S3中用于多模態自動融合的超網絡結構具體構成如下:
S31、使用三個多模態單元來得到同尺度的多模態融合特征,每個單元將兩對S2中獲得的相鄰的兩種模態特征作為輸入,并輸出相應的多模態特征Cn:
Cn=MMn(rn+1,rn+2,dn+1,dn+2),n∈{1,2,3}
其中MMn()表示第n個多模態單元;
S32、使用四個多尺度單元來得到多尺度的多模態融合特征,每個單元以S31中的多模態特征或S2中的兩種模態特征作為輸入,并輸出相應的多尺度特征Dm:
其中MSm()表示第m個多尺度單元;
S33、使用一個特征聚集單元來進行全局特征的高度聚集,以得到全局的多模態多尺度特征G:
G=GA(D1,D2,D3,D4)
其中GA()表示特征聚集單元;
S34、使用兩個級聯的結構加強單元來得到最終的顯著性圖,每個單元以前一單元的輸出和S2中的兩種模態特征為輸入,來加強最終顯著性特征的結構信息,并進行尺度對齊:
L1=SR1(θ(G),d2,r2)
L2=SR2(θ(L1),d1,r1)
其中θ()代表上采樣操作,SRn代表第n個結構加強單元,L2為最終的顯著性圖預測結果
所述S4中基于所述的超網絡進行神經網絡結構搜索操作如下:
S41、針對S3中共同構成超網絡的四種單元,將每一種單元內部都看做由X個節點構成的有向無環圖,分別設置四種單元內的節點數;然后從候選操作集合Q中選擇若干候選操作來構成節點之間的連接;節點xi、xj之間的連接關系表示為:
xj=∑i<jo(i,j)(xi)
其中o(i,j)()代表候選操作集合Q中候選操作的一種;
用Softmax函數將所有候選操作集加和在一起,構成單元內連續的搜索空間:
其中代表選擇xi和xj之間的候選操作o的可學習權重參數;
整個搜索空間由四種單元的所有結構參數構成;
S42、在神經網絡結構搜索階段,用所述的超網絡對數據集圖像對進行預測,表示為:
其中F’()表示超網絡函數,表示超網絡的預測結果,ω’為超網絡中模型的卷積網絡參數,α′為超網絡的結構參數;
以最小化超網絡模型預測結果與人工標注的顯著目標分割圖誤差為目標,對α′,ω′兩種參數進行交替優化,得到固定的網絡權重參數α*,其對應的網絡分支即超網絡結構最終的搜索結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011504271.2/1.html,轉載請聲明來源鉆瓜專利網。





