[發明專利]一種多標簽解耦的雙向重采樣方法在審
| 申請號: | 202010692452.6 | 申請日: | 2020-07-17 |
| 公開(公告)號: | CN112001499A | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 李小波;周書悅 | 申請(專利權)人: | 浙江師范大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 浙江千克知識產權代理有限公司 33246 | 代理人: | 王豐毅 |
| 地址: | 321004 *** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 標簽 雙向 采樣 方法 | ||
本發明涉及一種多標簽解耦的雙向重采樣方法。通過對多標簽數據集并發度較高的樣本進行解耦,并在解耦階段時對數據集樣本解耦時設置解耦終止條件,使得解耦更加合理,重采樣階段對過采樣和欠采樣方法進行改進,并且將過采樣與欠采樣結合并且對樣本標簽進行比較,使得樣本分布更加均衡的同時最大限度的保留含有弱勢標簽的樣本,并且對數據集的原始分布情況不發生太大改變。
技術領域
本發明屬于多標簽重采樣領域,具體涉及一種多標簽解耦的雙向重采樣方法。
背景技術
目前在多標簽學習中,由于分類器自身缺陷,分類器在多標簽不平衡的數據集中分類性能下降明顯。研究表明,分類器在標簽平衡的數據集中表現更為優異。對數據集的平衡關系到最后的分類效果,現階段主要采用重采樣方式對數據集進行預處理使數據集達到平衡。但是現有的多標簽不平衡處理方法會對數據集的分布造成一定的影響,單純的過采樣容易造成過擬合現象,單純的欠采樣容易造成信息丟失,而且單獨使用這兩種方法會對數據集的原始分布造成破壞。隨著對多標簽不平衡數據集研究的深入,研究發現強勢標簽和弱勢標簽在樣本當中的并發現象也會造成分類器的性能下降,強勢標簽與弱勢標簽的解耦是廣泛應用的方法,而標簽不平衡和標簽并發往往在數據集中是共同存在的,這更加造成了正確分類的難度。對于此類問題,將標簽解耦方法與重采樣方法結合的混合方法得到了重視。但是標簽解耦方法在標簽的并發程度達到平衡時還會繼續進行解耦,使數據集產生“過解耦”狀態,影響最終的分類效果。
發明內容
本發明主要針對上述問題,在對傳統重采樣算法和解耦算法進行研究,在此基礎上,提出了一種多標簽雙向重采樣算法。通過對多標簽數據集并發度較高的樣本進行解耦,并在解耦階段時對數據集樣本解耦時設置解耦終止條件,使得解耦更加合理,重采樣階段對過采樣和欠采樣方法進行改進,并且將過采樣與欠采樣結合并且對樣本標簽進行比較,使得樣本分布更加均衡的同時最大限度的保留含有弱勢標簽的樣本,并且對數據集的原始分布情況不發生太大改變。
本發明的上述技術問題是通過以下技術方案得以實施的:一種多標簽解耦的雙向重采樣方法,包括解耦和重采樣,其特征在于,所述重采樣包括:
步驟一,隨機選擇標簽集合中的一個標簽y,若標簽屬于弱勢標簽,并且標簽所包含的樣本數小于平均樣本數以及IRMeanIR就隨機產生一個抽樣次數 x,并滿足x=Random(0,MeanSamples-|y|);
步驟二,從標簽的樣本中隨機選擇m個樣本對這m個樣本計算 Min-SCUMBLEIns值,并且復制其中m個樣本中Min-SCUMBLEIns值最低的樣本,放回抽取x次,添加到數據集中,將需重采樣的樣本數減1;
步驟三:若標簽屬于強勢標簽,
則抽樣次數x=Random(0,|y|-MeanSamples);
步驟四:從標簽的樣本中隨機選擇m個樣本對這m個樣本計算 Min-SCUMBLEIns值,將Min-SCUMBLEIns值最低的樣本標簽值設置為0,共抽取x次,將需重采樣個數減1。
Xi表示數據集的第i個樣本,Y表示數據集D的標簽集,Li為Xi樣本的標簽集;解耦后的數據集為Dd,弱勢標簽域為minBag,強勢標簽域為majBag;
需重采樣的樣本數為數據集的數量乘以重采樣率P;
即samplesToResampling=|D|*P;
根據公式1計算所有標簽的標簽不平衡數IR值,
根據公式2求出初始平均不平衡數MeanIR值,
根據公式3求出平均樣本數MeanSamples的值;
根據公式4求出弱勢標簽度量Min-SCUMBLEIns的值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江師范大學,未經浙江師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010692452.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種吸音材料及其制備方法和用途
- 下一篇:控制方法、裝置、服務器及存儲介質





