[發明專利]基于密度的不平衡數據混合采樣算法在審
| 申請號: | 202110762213.8 | 申請日: | 2021-07-06 |
| 公開(公告)號: | CN113378987A | 公開(公告)日: | 2021-09-10 |
| 發明(設計)人: | 姜誠;萬靜;紀耀立 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍江省哈*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 密度 不平衡 數據 混合 采樣 算法 | ||
1.基于密度的不平衡數據混合采樣算法,該算法包括以下步驟:
(1)設原數據中總樣本數目為H,對少數類和多數類樣本使用DBSCAN聚類算法,識別并剔除少數類和多數類噪聲樣本,最后得到少數類樣本數目為X,多數類樣本數目為Y;
(2)對于每個樣本,依據樣本的K近鄰總距離,計算樣本的局部密度,依據局部密度設置閾值,將少數類和多數類分為邊界區域和非邊界區域;
(3)對于每個邊界區域的少數類,依據樣本的邊界密度大小,歸一化處理,確定樣本的權重,每個少數類周圍合成不同數目的樣本;
(4)對于每個非邊界區域的多數類樣本,依據樣本的邊界密度大小,進行隨機欠采樣,得到與少數類過采樣后相同數目的平衡數據樣本;
(5)平衡訓練集運用隨機森林分類器進行分類訓練測試,并與SMOTE、RUS等經典過采樣和欠采樣方法對比。
2.根據權利要求所述的基于密度的不平衡數據混合采樣算法,其特征在于,步驟(1)中需要依據DBSCAN聚類算法的結果,選擇聚類簇樣本數目低于閾值a的離群樣本簇,并對該簇進行剔除。
3.根據權利要求所述的基于密度的不平衡數據混合采樣算法,其特征在于,步驟(2)中計算局部密度計算選擇K近鄰樣本時,采用歐氏距離,并通過到每個K近鄰樣本的總距離作為樣本的局部密度。
4.根據權利要求所述的基于密度的不平衡數據混合采樣算法,其特征在于,步驟(3)中對于每個少數類邊界樣本,選取最近集合S中的兩個樣本X、Y,在兩個樣本連線上隨機選取一點xq,在與原邊界樣本的連線上,合成單個樣本xd,并重復相應的采樣次數,得到新生成的平衡數據集,生成新樣本xd公式:
xd=mi+rand(0,1)*(xq-mi)
其中rand(0,1)表示0到1之間的隨機數。
5.根據權利要求所述的基于密度的不平衡數據混合采樣算法,其特征在于,步驟(4)中對于每個多數類非邊界樣本,依據局部密度的大小,分段采樣,這樣盡可能的保證了多數類樣本的原始分布。
6.根據權利要求所述的基于密度的不平衡數據混合采樣算法,其特征在于,步驟(5)中選擇7組實驗數據集,采用十折交叉檢驗法,并使用F-value和G-mean等作為評價指標進行對比。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110762213.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種車輛危險行為檢測方法、裝置及系統
- 下一篇:一種切坯鋼絲自動化換取設備
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





