[發明專利]一種基于分級采樣的不平衡數據再平衡處理方法在審
| 申請號: | 202110391951.6 | 申請日: | 2021-04-13 |
| 公開(公告)號: | CN113095403A | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 林紹福;常晴晴;劉希亮 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分級 采樣 不平衡 數據 平衡 處理 方法 | ||
1.一種基于分級采樣的不平衡數據再平衡處理方法,其特征在于,包括如下步驟,
步驟1:把多數類樣本點根據分類難度分成不同的分類難度等級;
步驟2:根據不同的分類難度等級為每個等級設置等級權重;
步驟3:根據等級權重設置樣本激活函數;
步驟4:根據等級難度對每個等級進行下采樣,離分類邊界比較近的或者比較容易被錯分類的樣本會被選出來作為多數類樣本的代表樣本與少數類樣本合并成新的數據集,得到新的平衡的數據集;
步驟5:結束。
2.根據權利要求1所述的一種基于分級采樣的不平衡數據再平衡處理方法,其特征在于,基于分級采樣的不平衡數據再平衡方法輸入:訓練集S=(s1,s2,s3,...sn),si=(x,y),i=1,2,3,...n,分級函數L,基分類器F,分級數m;
S1.詐騙電話樣本(少數類樣本)Smin,正常電話樣本(多數類樣本)Smax
S=Smax∪Smin,
S2.把多數類樣本根據L(x,y,F)函數分成m個級別:R1,R2,R3,...Rm
S3.每個級別的重要性:
S4.設置分級采樣權重a=ei
S5.
S6.對每個級別進行采樣
S7.End
S8.Return新數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110391951.6/1.html,轉載請聲明來源鉆瓜專利網。





