[發(fā)明專利]基于類激活熱力圖的長尾數(shù)據(jù)分類方法、系統(tǒng)及介質(zhì)在審
| 申請?zhí)枺?/td> | 202211487746.0 | 申請日: | 2022-11-25 |
| 公開(公告)號: | CN115830372A | 公開(公告)日: | 2023-03-21 |
| 發(fā)明(設(shè)計)人: | 吳慶耀;陳健;賴呂龍 | 申請(專利權(quán))人: | 華南理工大學 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/82;G06N3/045;G06N3/08 |
| 代理公司: | 廣州市華學知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 激活 力圖 長尾 數(shù)據(jù) 分類 方法 系統(tǒng) 介質(zhì) | ||
本發(fā)明公開了一種基于類激活熱力圖的長尾數(shù)據(jù)分類方法、系統(tǒng)及介質(zhì),方法為:獲取長尾數(shù)據(jù)集;構(gòu)建長尾數(shù)據(jù)分類模型;在長尾數(shù)據(jù)集上預(yù)訓練特征提取模塊和分類模塊,完成后凍結(jié)特征提取模塊的參數(shù);在長尾數(shù)據(jù)集上迭代訓練長尾數(shù)據(jù)分類模型,包括:得到少樣本類別的數(shù)據(jù)集,輸入類激活圖模塊,生成可學習的原型和標準類激活圖熱力圖;將標準類激活熱力圖轉(zhuǎn)換為單通道圖,并重新提取少樣本類別數(shù)據(jù)集的特征向量,得到分類結(jié)果;迭代訓練類激活圖模塊和分類模塊,更新參數(shù)直至收斂,得到訓練好的模型;獲取待預(yù)測長尾數(shù)據(jù)集的分類結(jié)果。本發(fā)明有效解決了數(shù)據(jù)不平衡問題,在不降低多樣本類別的分類性能下,準確地對少樣本類別進行分類。
技術(shù)領(lǐng)域
本發(fā)明屬于長尾數(shù)據(jù)處理的技術(shù)領(lǐng)域,具體涉及一種基于類激活熱力圖的長尾數(shù)據(jù)分類方法、系統(tǒng)及介質(zhì)。
背景技術(shù)
近年來,人工智能及相關(guān)產(chǎn)業(yè)正迅速發(fā)展壯大,成為學術(shù)界、工業(yè)界以及世界各國政府關(guān)注的焦點,國務(wù)院發(fā)布了《新一代人工智能發(fā)展規(guī)劃》,突出了人工智能研究和產(chǎn)業(yè)的國家戰(zhàn)略地位。在計算機視覺領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)取得了很多突破性的進展;其中一個重要原因在于現(xiàn)有的大量的可用數(shù)據(jù)集(例如ImageNet)。然而,這些數(shù)據(jù)集中數(shù)據(jù)常常是不平衡的,不同類別的數(shù)據(jù)數(shù)量差異非常大。而通過不平衡的數(shù)據(jù)學習到的模型,對于少樣本類別判斷準確率較低。許多早期研究通過人為平衡數(shù)據(jù)來解決數(shù)據(jù)不平衡問題,如樣本采樣策略、類相關(guān)損失函數(shù)等;雖然一定程度上解決了數(shù)據(jù)不平衡問題,但同時也降低了在多樣本類別上的性能,并存在過擬合的風險。最近,研究顯示不平衡的數(shù)據(jù)分布對神經(jīng)網(wǎng)絡(luò)中的分類器影響很大,每個類別對應(yīng)的分類權(quán)重大小與學習模型中的數(shù)據(jù)數(shù)量正相關(guān),導(dǎo)致網(wǎng)絡(luò)總是偏向于產(chǎn)生多樣本類別的判斷。因此,如何在長尾數(shù)據(jù)上訓練出一個少樣本類別判斷準確的模型是一個亟待解決的難題。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種基于類激活熱力圖的長尾數(shù)據(jù)分類方法、系統(tǒng)及介質(zhì),本發(fā)明通過在構(gòu)建的長尾數(shù)據(jù)分類模型中引入類激活圖模塊,通過預(yù)訓練特征提取模塊的參數(shù)并凍結(jié),再通過迭代訓練重新訓練長尾數(shù)據(jù)分類模型,有效解決了數(shù)據(jù)不平衡問題,在不降低多樣本類別的分類性能下,準確地對少樣本類別進行分類。
為了達到上述目的,本發(fā)明一方面提供了一種基于類激活熱力圖的長尾數(shù)據(jù)分類方法,包括下述步驟:
獲取長尾數(shù)據(jù)集,所述長尾數(shù)據(jù)集包含多個類別,并對每個樣本標注所屬類別,且不同類別的樣本數(shù)量具有較大差異;
構(gòu)建長尾數(shù)據(jù)分類模型,所述長尾數(shù)據(jù)分類模型包括特征提取模塊、類激活圖模塊和分類模塊;所述類激活圖模塊位于特征提取模塊和分類模塊之間;
使用交叉熵損失函數(shù)在長尾數(shù)據(jù)集上預(yù)訓練特征提取模塊和分類模塊,預(yù)訓練完成后凍結(jié)特征提取模塊的參數(shù),得到長尾數(shù)據(jù)集的類別;
在長尾數(shù)據(jù)集上迭代訓練長尾數(shù)據(jù)分類模型,包括:
定義長尾數(shù)據(jù)集的類別中數(shù)據(jù)量少于τ的類別為少樣本類別,得到少樣本類別的數(shù)據(jù)集;
將少樣本類別的數(shù)據(jù)集輸入類激活圖模塊,生成可學習的原型和標準類激活圖熱力圖;
將標準類激活熱力圖轉(zhuǎn)換為單通道圖,并輸入凍結(jié)參數(shù)的特征提取模塊中重新提取少樣本類別數(shù)據(jù)集的特征向量,輸入分類模型中得到分類結(jié)果;
使用交叉熵損失函數(shù)迭代訓練類激活圖模塊和分類模塊,更新類激活圖模塊和分類模塊的參數(shù)直至收斂,得到訓練好的長尾數(shù)據(jù)分類模型;
將待預(yù)測長尾數(shù)據(jù)集輸入訓練好的長尾數(shù)據(jù)分類模型中,得到預(yù)測的分類結(jié)果。
作為優(yōu)選的技術(shù)方案,所述使用交叉熵損失函數(shù)在長尾數(shù)據(jù)集上預(yù)訓練特征提取模塊和分類模塊,具體為:
輸入長尾數(shù)據(jù)集到特征提取模塊中,提取長尾數(shù)據(jù)集中每一樣本的特征向量F;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學,未經(jīng)華南理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211487746.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





