[發明專利]基于密度的不平衡數據混合采樣算法在審
| 申請號: | 202110762213.8 | 申請日: | 2021-07-06 |
| 公開(公告)號: | CN113378987A | 公開(公告)日: | 2021-09-10 |
| 發明(設計)人: | 姜誠;萬靜;紀耀立 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍江省哈*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 密度 不平衡 數據 混合 采樣 算法 | ||
本發明公開了基于密度的不平衡數據混合采樣算法,首先使用DBSCAN聚類算法對少數類和多數類進行聚類,識別并處理少數類和多數類離群點,然后依據樣本的K近鄰總距離,計算每個樣本的邊界密度,依據邊界密度,確定少數類樣本和多數類樣本的邊界區域和非邊界區域,對少數類樣本邊界區域進行過采樣,多數類樣本非邊界區域欠采樣,最后得到平衡數據集,使用交叉驗證劃分數據,使用隨機森林算法對樣本分類測試,實驗結果顯示,本發明能夠得到較好的分類結果,分類器性能得到提高。
技術領域
本發明屬于模式識別技術領域,涉及一種針對不平衡數據集的混合采樣方法和分類算法的訓練測試。
背景技術
在數據挖掘中,得到的數據如癌癥患者,網絡攻擊識別,信用卡欺詐等較多不平衡數據,由于少數類包含的獨有的特殊價值,如何準確的發現識別,是機器學習中是一項艱巨的挑戰,逐漸成為機器學習領域的研究熱點問題。
目前,不平衡數據相繼提出了很多算法,主要在數據層面和算法層面上進行研究改進。
數據層面主要可以分為欠采樣和過采樣兩個主要方面,欠采樣主要通過刪減多數類數據樣本,目前主要通過聚類和整合的方法,但欠采樣最大的問題是當樣本數目較少時,欠采樣后訓練樣本更少,這樣導致模型無法得到準確的結果。
過采樣層面主要是通過增加少數類樣本,這樣得到平衡的數據集,但過采樣后容易存在過擬合,需要綜合考慮樣本的分布情況,精細化的合成有效的樣本。
因此,本發明結合過采樣和欠采樣的缺陷,提出了基于密度的不平衡數據混合采樣算法。
發明內容
本發明的目的是提出基于密度的不平衡數據混合采樣算法,得到更加合理分布的平衡樣本,從而提高分類器的預測性能和準確性。
本發明目的能夠通過以下技術方案實現;
基于密度的不平衡數據混合采樣算法,該算法包括以下步驟:
設原數據中總樣本數目為H,對少數類和多數類樣本使用DBSCAN聚類算法;
識別并剔除少數類和多數類噪聲樣本,最后得到少數類樣本數目為X,多數類樣本數目為Y;
具體地,需要依據DBSCAN聚類算法的結果,選擇聚類簇樣本數目低于閾值a的離群樣本簇,并對該簇進行剔除。
對于每個樣本,依據樣本的K近鄰總距離,計算樣本的局部密度,依據局部密度設置閾值,將少數類和多數類分為邊界區域和非邊界區域;
具體地,計算局部密度計算選擇K近鄰樣本時,采用歐氏距離,并通過到每個K近鄰樣本的總距離作為樣本的局部密度。
對于每個邊界區域的少數類,依據樣本的邊界密度大小,歸一化處理,確定樣本的權重,每個少數類周圍合成不同數目的樣本;
具體地,對于每個少數類邊界樣本,選取最近集合S中的兩個樣本X、Y,在兩個樣本連線上隨機選取一點xq,在與原邊界樣本的連線上,合成單個樣本xd,并重復相應的采樣次數,得到新生成的平衡數據集,其中rand(0,1)表示0到1之間的隨機數,生成新樣本xd計算公式為:
xd=mi+rand(0,1)*(xq-mi)
對于每個非邊界區域的多數類樣本,依據樣本的邊界密度大小,進行隨機欠采樣,得到與少數類過采樣后相同數目的平衡數據樣本;
平衡訓練集運用隨機森林分類器進行分類訓練測試,并與SMOTE、RUS等經典過采樣和欠采樣方法對比;
具體地,選擇7組數據集上實驗,采用十折交叉檢驗法,并使用F-value和G-mean等作為評價指標進行對比。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110762213.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種車輛危險行為檢測方法、裝置及系統
- 下一篇:一種切坯鋼絲自動化換取設備
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





