[發明專利]一種基于譜聚類的過采樣方法在審
| 申請號: | 202011462702.3 | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112418352A | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 張爽;李媛潔;紀耀立 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍江省哈*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 譜聚類 采樣 方法 | ||
本發明涉及一種基于基于譜聚類的過采樣方法,本發明首先對數據集進行譜聚類,根據簇內多數類樣本與少數類樣本的個數劃分為邊界簇和安全簇,對于邊界簇,根據簇內不平衡比進行簇的概率選擇;對于安全簇根據簇內少數類樣本數據個數進行簇的概率選擇;在選擇簇的基礎上,選擇簇中心點并隨機選取簇內少數類樣點,在兩個樣本點之間隨機生成,直到個數滿足條件,本發明能夠提高過采樣生成數據的可靠性,從而提高不平衡數據中少數類樣本的分類精度。
技術領域
本發明涉及數據挖掘領域,尤其涉及一種基于譜聚類的過采樣方法。
背景技術
在數據挖掘領域中,不平衡數據是分類問題中一個典型問題,傳統的機器學習模型在處理不平衡數據時往往將預測結果更傾向于多數類,對于少數類的分類準確率偏低。然而,從數據挖掘的角度分析,在一些分類問題中少數類數據往往存在更重要的信息。
隨著不平衡數據集處理的研究的不斷發展,目前,研究方向主要集中在算法層面和數據層面。對于數據層面來說,主要分為過采樣、欠采樣和混合采樣。相對于其他采樣方法,過采樣的方法能夠避免多數類重要數據樣本的丟失。過采樣逐漸發展出很多方法,比如SMOTE、Borderline-SMOTE、ADASYN等等,但是這些方法只是對樣本進行無區別的采樣,不能同時考慮同類數據和不同數據之間的關系,這些都會導致邊界無法準確區分,導致在預測時準確率有所下降。
發明內容
本發明的目的在于提供一種對不平衡數據進行聚類,劃分為不同類別簇進行過采樣并平衡數據集,從而達到提高預測少數類樣本準確性的不平衡數據過采樣方法。
實現本發明目的的技術解決方案為:一種基于譜聚類的過采樣方法,其特征在于,包括以下步驟。
步驟1:對不平衡數據集作為輸入,區分出少類樣本和多類樣本,計算原始數據的不平衡比。
步驟2:將不平衡數據集利用譜聚類,劃分為多個簇。
步驟3:根據簇內有無多數類或少數類篩選出邊界簇和安全簇,并且根據各類簇所占比例確定簇的選擇權重。
步驟4:對于邊界簇,根據簇內的不平衡比分別進行過采樣。
步驟5:對于安全簇,根據密度分別進行過采樣。
步驟6:重復步驟3-5直至生成數據個數等于所需數據,并將生成的數據集添加到原始數據集中,構造成新的數據集。
根據所述的一種基于譜聚類的過采樣方法,其特征在于,所述步驟2中,將不平衡數據集利用譜聚類,劃分為多個簇,具體步驟如下。
步驟2.1 利用KNN算法遍歷所有的樣本點,取每個樣本最近的K個樣本點作為近鄰,計算樣本點與其所對應的近鄰樣本之間之間的高斯距離,并通過兩個樣本點之間高斯距離構造相似矩陣A。
步驟2.2 通過相似矩陣A構造度矩陣D。
步驟2.3 根據相似矩陣A和度矩陣D,構造拉普拉斯矩陣L。
步驟2.4 計算拉普拉斯矩陣L所對應的特征值,找出最小的k個特征值和特征值所對應的特征向量。
步驟2.5 通過各個特征向量作為列向量構造特征矩陣R,其中R為n行k列矩陣。
步驟2.6 將n行當作n個樣本點,采用k-means方法進行聚類,得到所需簇。
根據所述的一種基于譜聚類的過采樣方法,其特征在于,所述步驟3中,根據簇內有無多數類或少數類篩選出邊界簇和安全簇,并且根據各類簇所占比例確定簇的選擇權重,具體步驟為。
步驟3.1 將只含有多數類樣本的簇定義為危險簇,只含有少數類樣本的簇定義為安全簇,其余簇定義為邊界簇。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011462702.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種提取RNA的試劑盒及其方法
- 下一篇:一種汽車車載語音交互系統及方法





