[發明專利]一種深度感知和多模態自動融合的RGB-D顯著性目標檢測方法有效
| 申請號: | 202011504271.2 | 申請日: | 2020-12-18 | 
| 公開(公告)號: | CN112651406B | 公開(公告)日: | 2022-08-09 | 
| 發明(設計)人: | 李璽;張文虎;孫鵬 | 申請(專利權)人: | 浙江大學 | 
| 主分類號: | G06V10/46 | 分類號: | G06V10/46;G06V10/80;G06V10/56;G06V10/82;G06N3/04;G06N3/08 | 
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 傅朝棟;張法高 | 
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 一種 深度 感知 多模態 自動 融合 rgb 顯著 目標 檢測 方法 | ||
本發明公開了一種深度感知和多模態自動融合的RGB?D顯著性目標檢測方法,用于在給定彩色圖像和對應的深度圖像的情況下,對彩色圖像中的顯著物體做像素級的細粒度分割。具體包括如下步驟:獲取訓練該任務的圖像數據集,并定義算法目標;分別建立用于提取彩色圖像與深度圖像的深度神經網絡;建立用于多模態自動融合的超網絡;基于前述的超網絡進行神經網絡結構搜索以確定模型結構;基于前述模型結構進行預測模型訓練,并得到最終的訓練好的神經網絡模型。本發明適用于RGB?D場景下的顯著性目標檢測,面對各類復雜情況具有較佳的效果和魯棒性。
技術領域
本發明涉及計算機視覺領域,特別地涉及一種深度感知和多模態自動融合的RGB-D顯著性目標檢測方法。
背景技術
RGB-D顯著性目標檢測問題旨在利用成對的彩色圖像與深度圖像,檢測場景中最顯著的物體,并給出該物體的分割圖,可以為圖像檢索,視頻分割,行人重識別等眾多領域提供幫助,近年來因為深度學習模型的出現得到了較大的發展。
深度圖像作為場景中的重要顯著性依據,蘊含了豐富的空間結構信息和物體邊界信息,如何利用深度圖像輔助顯著性區域的判斷是至關重要的。此前基于深度學習的RGB-D顯著性目標檢測方法,通常將深度圖像單獨提取特征,或作為彩色圖像的第四個維度,將彩色圖像與深度圖像平等得對待,并沒有顯式建模深度分布與顯著性物體的空間位置關系,且兩種特征的融合方式是通過啟發式手工設計的。
考慮到彩色圖像與深度圖像的數據來源存在差異,本發明嘗試探索更多的深度圖像利用方式。其一,是將深度拆解為三個部分來輔助排除彩色圖像中的背景干擾,并指導彩色圖像特征的提取,其二,是利用神經網絡搜索技術將深度圖像特征與彩色圖像特征做自動融合。以此適應不同復雜場景下的顯著性目標檢測任務。
發明內容
針對以上問題,本發明提供了一種深度感知和多模態自動融合的RGB-D顯著性目標檢測方法。
本發明具體采用的技術方案如下:
一種深度感知和多模態自動融合的RGB-D顯著性目標檢測方法,其包括以下步驟:
S1、獲取訓練該任務的圖像數據集;
S2、分別建立用于提取彩色圖像與深度圖像的深度神經網絡;
S3、建立用于多模態自動融合的超網絡結構;
S4、基于所述的超網絡結構進行神經網絡結構搜索以確定模型結構;
S5、基于所述搜索結果進行預測模型訓練,并得到最終的訓練好的神經網絡模型;
S6:將待檢測的彩色圖像與深度圖像輸入訓練好的神經網絡模型中,預測圖中的顯著性目標。
作為優選,所述S1中的圖像數據集包括單幀彩色圖像Itrain和對應的深度圖像Dtrain,以及人工標注的顯著目標分割圖Ptrain。
作為優選,定義算法目標為預測單幀圖像中的顯著性目標的分割圖
進一步的,所述S2包括以下子步驟:
S21、對于每個單幀彩色圖像Itrain,其特征提取的深度神經網絡由VGG19網絡結構與4個插入的DSAM模塊構成;其中第i個DSAM模塊以VGG19的第i個卷積模塊的輸出r′i作為輸入,其輸出作為VGG19的第i+1個卷積模塊的輸入,i∈{1,2,3,4};在i個DSAM模塊中,首先根據對應的深度圖像Dtrain的頻數直方圖將深度圖像拆解為三個部分并通過最大池化層來得到與ri維度相同的三個子圖像然后通過如下操作獲得深度感知的彩色圖像特征Ri:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011504271.2/2.html,轉載請聲明來源鉆瓜專利網。





