[發明專利]基于類別激活映射的不平衡數據采樣方法及系統在審
| 申請號: | 202110479005.7 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN112906832A | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 魏秀參;張永順 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 陳鵬 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 類別 激活 映射 不平衡 數據 采樣 方法 系統 | ||
本發明公開了一種基于類別激活映射的不平衡數據采樣方法及系統,方法包括:在不平衡的數據集上通過隨機過采樣;循環遍歷采樣數據集,生成每張圖片對應的類別激活映射;利用類別激活映射將圖片分為前景信息和背景信息;保持圖片背景信息不變,對圖片的前景信息進行變換;將變換后的圖片替換掉原始采樣數據集中的圖片,繼續遍歷剩余的圖片直至采樣數據集遍歷結束為止;變換后的數據集和原始數據集構成平衡數據集,結合重采樣方法,對模型進行進一步的微調,得到最終的模型。本發明利用圖片的類別激活映射來分割圖片的前景和背景信息,模型在增強后的數據集上進行訓練能夠獲得進一步的特征學習和表示能力。
技術領域
本發明屬于類別不平衡圖像識別領域,具體涉及一種基于類別特征映射的不平衡數據采樣方法及系統。
背景技術
不平衡數據分布是自然界數據存在的真實現象,在圖像分類的相關研究中,不平衡數據,特別是長尾數據,是目前研究的熱門方向之一,其相關研究內容和成果也符合實際應用的需求。不平衡圖像數據即在數據集中,不同類別所占有的圖像數量是不相等的,在長尾數據分布中,極少數類別(頭部類別)占有數據集中的大部分圖片,而大多數類別(尾部類別)只占有很少的圖像數據。
神經網絡模型在不平衡數據集上訓練后,在尾部類別上表現很差,主要原因在于尾部類別的圖片數量少。在神經網絡模型訓練過程中,大部分訓練數據都被頭部類別所占有,模型訓練中所利用的尾部類別圖片相比頭部類別過少,因此模型在尾部類別數據上的分類性能很差。 對于神經網絡模型在尾部類別表現差的現象,研究人員在數據層面上提出了重采樣(re-sampling)的方法,在訓練過程中,通過重采樣技術來增加尾部類別的訓練數據。重采樣技術的主要過程為對每次訓練開始前,不同于隨機采樣,重采樣技術為尾部數據增加其被采樣的概率,使得采樣過后的訓練數據中,尾部類別的圖像數據增加。通過重采樣技術,神經網絡模型在訓練過程中所利用的尾部數據增加,因此模型在尾部類別上的分類性能隨之增強。
重采樣技術在不平衡數據上雖然已有很好的分類效果,但是其只利用了原始的圖像數據信息,在重采樣之后的訓練數據中,沒有增加新的、具有判別性的信息。雖然現有的一些重采樣方法利用數據插值、模型梯度信息等來產生新的樣本來為模型訓練增加判別性的信息,但是這些方法存在如下問題:1)復雜性高,需要的輔助信息,如梯度等,獲取成本大;2)方法不能很好的控制生成的新樣本語義信息,產生的新樣本所含噪聲信息很大。
發明內容
本發明的目的在于提供一種基于類別激活映射的不平衡數據采樣方法及系統。
實現本發明目的的技術方案為:
一種基于類別激活映射的不平衡數據采樣方法,包括:
對不平衡數據集進行隨機過采樣,采樣圖片組成采樣數據集;
循環遍歷采樣數據集,對每一張遍歷的圖片利用訓練過的神經網絡模型生成其對應的類別激活映射;
利用類別激活映射來分割圖片的前景信息和背景信息,只對圖片的前景信息進行圖像增強,保持其背景信息不變;
將增強后的圖片替換掉原始采樣數據集中的圖片,繼續遍歷剩余的圖片直至采樣數據集遍歷結束為止,得到增強后的采樣數據集;
增強后的采樣數據集和原始數據集結合組成平衡數據集,在平衡數據集上結合重采樣技術對模型進行調整。
進一步的,所述對不平衡數據集進行隨機過采樣,采樣圖片組成采樣數據集,其中隨機過采樣技術增加采樣閾值設置,若不平衡數據集中某類別所包含的圖片數量大于等于該采樣閾值,則該類別圖片無需進行采樣;對于數據集中類別圖片數量小于采樣閾值的類別,對其進行隨機過采樣使得其在新的平衡采樣數據集中類別圖片數量為采樣閾值與原始圖片數之差。
進一步的,所述利用類別激活映射來分割圖片的前景信息和背景信息,具體如下:
對于給定的圖片,令表示在神經網絡最后一層卷積層中,神經元在空間位置的激活函數值,則對于神經元應用全局平均池化得到:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110479005.7/2.html,轉載請聲明來源鉆瓜專利網。





