[發明專利]一種基于雙網絡聯合標簽修正的網絡圖像數據集去噪方法有效
| 申請號: | 202111237302.7 | 申請日: | 2021-10-25 |
| 公開(公告)號: | CN113688949B | 公開(公告)日: | 2022-02-15 |
| 發明(設計)人: | 姚亞洲;孫澤人;陳濤;張傳一;沈復民 | 申請(專利權)人: | 南京碼極客科技有限公司 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 成都君合集專利代理事務所(普通合伙) 51228 | 代理人: | 尹玉 |
| 地址: | 211899 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 網絡 聯合 標簽 修正 圖像 數據 集去噪 方法 | ||
本發明公開了一種基于雙網絡聯合標簽修正的網絡圖像數據集去噪方法,采用兩個同樣的深度神經網絡分別進行隨機初始化后對網絡數據集進行訓練,并分別進行樣本選擇,根據選擇結果劃分干凈樣本、內部噪聲以及無關噪聲數據。通過將兩個深度神經網絡的softmax概率平滑后進行加權平均的結果作為內部噪聲樣本的真實標簽,用以修正內部噪聲,然后聯合干凈樣本計算交叉熵損失,分別用于更新兩個深度神經網絡。本發明通過聯合訓練后,兩個深度神經網絡會變得越來越準確,最終對圖像的預測也會趨近一致。本發明相較于單網絡的修正方法,修正標簽的準確率有明顯提升,具有較好的實用性。
技術領域
本發明屬于圖像數據處理的技術領域,具體涉及一種基于雙網絡聯合標簽修正的網絡圖像數據集去噪方法。
背景技術
圖像分類任務作為計算機視覺中的一項基本任務,有著廣泛的應用前景,該任務大致可以分為粗粒度圖像分類任務和細粒度圖像分類任務。得益于現代計算機技術的發展,深度神經網絡目前已成為圖像分類任務中廣泛采用的方法。隨著互聯網的快速發展,各種信息化平臺每天都在產生大量的多媒體信息,其中就含有大量的圖像信息。相較于人工標注的數據集,網絡數據大量豐富且容易獲取。一些搜索引擎支持使用關鍵詞來進行圖像檢索,因此很容易根據標簽文字獲取大量圖像數據。但是由于互聯網中的信息準確性無法保證,如果直接將從網絡上檢索到的圖像的標簽標注為其檢索文字,并組成網絡數據集中的訓練集時,會引入大量的標簽噪聲,而這些標簽噪聲的存在會嚴重影響分類器的分類效果。
網絡圖像數據集用于減輕細粒度圖像分類任務對精細人工標注數據集的依賴,網絡圖像數據集中含有內部噪聲和無關噪聲兩種。由于網絡數據集中的訓練集存在標簽噪聲,如果使用一個深度神經網絡進行預測,可能會因為其訓練前的隨機初始化或者學習過程中的隨機梯度下降產生錯誤的學習方向。同時由于網絡數據集中除了無關噪聲外,還存在內部噪聲,如果只考慮丟棄噪聲數據,會同樣丟棄這些可以通過修正后用于深度神經網絡訓練的內部噪聲。
目前對于處理訓練數據集中標簽噪聲的研究,主要分為兩類,一種是樣本選擇,主要通過選擇訓練數據集中干凈的樣本進行深度神經網絡的訓練。另一種是標簽或者損失修正,是通過標簽修正或者損失修正來修正錯誤標記的數據。以上去噪方法都是基于人工打亂標簽的數據集,但對于網絡數據集而言,其數據集的噪聲率未知、噪聲的分布沒有規律,且存在無關噪聲,因此這些方法都不能完全適用于網絡數據集。
發明內容
本發明的目的在于提供一種基于雙網絡聯合標簽修正的網絡圖像數據集去噪方法,旨在解決上述問題。
本發明主要通過以下技術方案實現:
一種基于雙網絡聯合標簽修正的網絡圖像數據集去噪方法,包括以下步驟:
步驟S100:獲取網絡數據集,并劃分得到訓練集
步驟S200:采用訓練集
步驟S300:將訓練集
步驟S400:將兩個深度神經網絡的softmax概率平滑后進行加權平均的結果作為內部噪聲樣本的真實標簽,用以修正內部噪聲;然后聯合干凈樣本計算交叉熵損失,分別用于更新兩個深度神經網絡,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京碼極客科技有限公司,未經南京碼極客科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111237302.7/2.html,轉載請聲明來源鉆瓜專利網。





