[發明專利]一種基于混合標簽的弱監督顯著性檢測方法及訓練策略在審
| 申請號: | 202211081469.3 | 申請日: | 2022-09-06 |
| 公開(公告)號: | CN115620101A | 公開(公告)日: | 2023-01-17 |
| 發明(設計)人: | 叢潤民;秦萁;熊航;劉鴻羽;白慧慧;趙耀 | 申請(專利權)人: | 北京交通大學 |
| 主分類號: | G06V10/80 | 分類號: | G06V10/80;G06V10/82;G06V10/30;G06N3/0464;G06N3/08 |
| 代理公司: | 北京衛平智業專利代理事務所(普通合伙) 11392 | 代理人: | 閆萍 |
| 地址: | 100044*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 標簽 監督 顯著 檢測 方法 訓練 策略 | ||
本發明涉及一種基于混合標簽的弱監督顯著性檢測方法及訓練策略。本發明提出了一個兩階段的網絡來分別對粗糙標簽進行修正以及對RGB圖像中顯著性物體的檢測框架及方法:在修正網絡中,設計了帶有引導和聚合機制的混合器模塊,在不同階段對特征進行聚合和修正;此外提出了一個特殊的迭代訓練策略,實現對準確標簽的充分利用。本發明所述的測試框架與方法在多個公開基準數據集上均達到了具有競爭力的性能。在多目標、復雜背景、低對比度等條件下,本發明均能在粗糙標簽的加持下有比較好的預測結果。
技術領域
本發明涉及圖像處理技術領域,具體說是一種基于混合標簽的弱監督顯著性檢測方法及訓練策略。
背景技術
圖像作為人可以直觀感受到的最直接的信息,相比于人為加工的文字,能包含更多的信息,因此人們經常使用圖像進行信息獲取、信息表達和信息傳遞等重要活動。而人眼從圖像中所注意到的圖像往往有先后之分,往往最先注意到的圖像最能體現人眼所最關注的部分,顯著性檢測就是這樣一項圖像處理技術。從一張RGB彩色照片或者一段視頻中,檢測出最受人眼關注的物體,有助于快速提煉一張圖像的信息,在信息量如此龐大的互聯網時代,能大大有助于圖像檢索,提高圖像檢索的效率。此外,互聯網時代信息的傳遞也是紛繁復雜,如何能在同樣的帶寬下傳遞更多的信息往往代表著更屬實的網絡體驗,而通過顯著性檢測技術,可以將圖像或者視頻進行處理,提取出主要物體,對圖像或者視頻進行壓縮,從而減少圖像或者視頻大小,提高網絡傳輸效率。這些應用只是顯著性目標檢測的一部分,比如目標跟蹤、圖像/視頻編輯等領域,顯著性目標檢測技術也同樣有用武之地。早期學者一般使用數學和統計學的方法來進行顯著性目標檢測,而隨著深度學習技術的快速發展,諸如顯著性目標檢測等的圖像處理技術得到了質的飛躍,在深度學習技術的加持下,檢測準確率有了質的飛躍,在目標檢測領域,計算機更是第一次超越人類擁有了更高的準確率。但是隨之而來的問題是,深度學習往往需要對一類物體提供準確的標注信息供神經網絡學習,這些準確的標注非常耗費時間,不僅需要專業的軟件,還需要耗費大量的人力。在此基礎上,弱監督的方法應運而生。弱監督顯著性目標檢測,旨在使用更簡單的標注信息(例如圖片級標注、涂鴉標注和粗糙標注)。這幾種標注信息所需要的標注成本比較低,通常幾秒鐘就可以完成。采用這種方式,可以進行大批量數據集的標注。
但現有的方法中采用的弱監督方式通常是使用稀疏標簽進行監督,而像涂鴉標簽等稀疏標簽只提供了部分準確信息,需要對少量標簽進行擴展,這樣就會出現不可避免的錯誤,引入大量的噪聲。另外,現有方法通常采用單階段的訓練策略,難以對標簽進行精選的優化。
發明內容
針對現有技術中存在的缺陷,本發明的目的在于提供一種基于混合標簽的弱監督顯著性檢測方法。具體而言,本發明以大量粗標簽和少量真實標簽作為監督,并將該任務解耦為粗標簽細化和顯著目標檢測兩個子任務,進而設計了相應的修正網絡(R-Net)和顯著性預測網絡(S-Net)。其中,R-Net設計了一個帶有引導和聚合機制的混合器模塊來實現兩階段特征解碼,引導階段用于引入來自RGB圖像引導分支的引導信息(如目標的位置信息和完整性等),以保證基線的魯棒性,聚合階段根據其修正或補充作用動態整合不同級別的特征。
為達到以上目的,本發明采取的技術方案是:
一種基于混合標簽的弱監督顯著性檢測方法,其特征在于,包括R-Net和S-Net;
R-Net整體采用編碼器-解碼器架構,用以接收主流分支和引導分支的信息,形成雙流編碼結構;R-Net中還包括帶有引導和聚合機制的混合器BGA,用以實現引導階段和聚合階段的特征解碼;
S-Net用于在真實標簽監督下對待預測的RGB圖片進行顯著性檢測;
上述R-Net指修正網絡,S-Net指顯著性預測網絡;主流分支指主流修復分支,包括RGB圖片和粗糙標簽;引導分支指獨立的RGB圖片引導分支;
上述引導階段指使用引導分支的信息補充主流分支;聚合階段指整合相應層的編碼器特征、前一層的解碼器特征和來自編碼器頂層的全局特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學,未經北京交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211081469.3/2.html,轉載請聲明來源鉆瓜專利網。





