[發明專利]一種基于動態特征選擇的RGB-D顯著目標檢測方法在審
| 申請號: | 202110586099.8 | 申請日: | 2021-05-27 |
| 公開(公告)號: | CN113392727A | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 顏成鋼;溫洪發;孫垚棋;張繼勇;李宗鵬 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 動態 特征 選擇 rgb 顯著 目標 檢測 方法 | ||
本發明公開了一種基于動態特征選擇的RGB?D顯著目標檢測方法。本發明提出了一種動態選擇網絡,包括動態選擇模塊DSM和跨模態全局上下文模塊CGCM,其中DSM又包含了兩個子模塊:跨模態注意力模塊CAM和雙向門控池化模塊BGPM。通過CAM從通道和空間的角度來動態地挖掘RGB和深度圖之間的互補信息,通過CGCM從全局的角度來精準地凸出顯著目標。通過BGPM,以門控選擇的方式優化了跨級別信息,以動態選擇的方式強化了多尺度信息。最后,本發明進一步引入了邊緣監督策略,并將空間注意力機制嵌入到其中,以反饋的方式保證了顯著目標邊界的準確性和清晰性,有效提升了模型的細節表征能力。
技術領域
本發明屬于計算機視覺領域,涉及一種基于動態特征選擇的RGB-D顯著目標檢測方法,特別是利用卷積神經網絡來動態選擇RGB圖像和深度圖像中所包含的不同模態的特征信息。
背景技術
顯著目標檢測(SOD)是一個在計算機視覺領域中受到持續關注的基本問題,其目的是定位并凸顯圖像或者視頻中最能夠引起視覺注意力的局部區域。經過科研人員的不斷努力,顯著目標檢測已經取得了一些具有重大意義的成果,在眾多應用領域中扮演著十分重要的角色。例如,高效且有效的顯著目標檢測算法廣泛地應用于圖像分割、目標識別、視覺追蹤和視頻編碼等任務中。總體來說,開展顯著目標檢測的相關研究具有十分重要的理論價值和實際意義。
傳統的SOD算法主要是基于手工設計的特征,缺乏對高級語義信息的有效表征,具有一定的局限性。最近,伴隨著深度學習技術的飛速發展,卷積神經網絡(CNNs)已成為RGBSOD任務中的主角,取得了相比于傳統方法更好的性能表現。然而,在某些復雜場景中,例如對比度低和背景混雜,RGB SOD方法面臨著先天的不足,性能表現往往難以達到期望水平。這其中最主要的原因是RGB圖像很好地表征了外觀紋理信息,卻無法有效地定義空間位置信息。眾所周知,深度圖表達了物體距離相機的遠近程度,其中包含的豐富空間結構信息對顯著目標預測是至關重要的。同時,隨著Microsoft Kinect和Intel RealSense等深度傳感器的出現,深度信息的采集變得越來越容易、越來越準確。因此,研究者們在RGB SOD上引入深度線索實現了進一步的性能提升,即RGB-D SOD。
類似于RGB SOD,早期的RGB-D SOD方法大多專注于利用特定的先驗知識來設計手工特征描述符,完全忽視了語義信息的重要性,這就導致其難以應對各種多變的、富有挑戰性的場景?;谏疃葘W習的RGB-D SOD有效地改善了上述問題,充分地結合了低級外觀和高級語義信息,實現了令人鼓舞的結果。盡管存在的RGB-D SOD方法已經取得了穩定而可靠的結果,但是仍有較大的性能提升空間。一般來講,主要有如下挑戰需要面對:1)如何有效地聚合跨模態特征。顯而易見,RGB和深度圖的固有特征屬性是有本質區別的。RGB側重于表達外觀紋理信息,而深度圖則更關注空間幾何信息,二者互為補充,共同促進。2)如何高效地融合跨級別特征。直接以簡單的方式(例如相加或點乘)融合跨級別特征忽視了不同級別特征之間的特異性,并且很容易將固有噪聲疊加放大,導致適得其反的效果。3)如何準確地細化顯著對象的邊界。一方面,照明強度的變化往往造成顯著對象與背景區域的邊界難以區分;另一方面,CNNs中的池化和采樣操作會引發邊界模糊問題。清晰地刻畫前景與背景之間的邊界一直以來是一個充滿挑戰的課題。
發明內容
針對現有技術中存在的不足,本發明提供一種基于動態特征選擇的RGB-D顯著目標檢測方法。
一種基于動態特征選擇的RGB-D顯著目標檢測方法,步驟如下:
步驟(1)、構建目標檢測網絡模型;
所述的目標檢測網絡模型采用編碼器-解碼器結構。編碼器部分包含一對基于ResNet-50的對稱雙流主干網絡,分別用于提取多級的RGB圖像外觀特征和深度圖空間特征。對于解碼器部分,采用動態選擇模塊DSM和跨模態全局上下文模塊CGCM來進行顯著性預測。
步驟(2)、通過跨模態全局上下文模塊CGCM粗略定位顯著目標;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110586099.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種彈條整理機
- 下一篇:基于Fbank特征和MFCC特征融合的聲紋識別方法





