[發明專利]一種反饋式密度峰值聚類方法及系統在審
| 申請號: | 201710131145.9 | 申請日: | 2017-03-07 |
| 公開(公告)號: | CN107016407A | 公開(公告)日: | 2017-08-04 |
| 發明(設計)人: | 丁世飛;徐曉;杜明晶;賈洪杰;徐麗;胡乾坤 | 申請(專利權)人: | 中國礦業大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 221116 江蘇省徐*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 反饋 密度 峰值 方法 系統 | ||
1.一種反饋式密度峰值聚類方法及系統,其特征在于,利用非負矩陣分解對數據集進行降維,然后基于密度峰值聚類算法對數據進行初始聚類,再根據反饋策略合并類,得出聚類結果,該方法具體包括:
步驟1:用非負矩陣分解對數據集進行特征提取;
步驟2:構造距離矩陣dij;
步驟3:利用計算每個數據點的局部密度ρi;
步驟4:利用計算每個數據點的距離屬性δi;
步驟5:根據上述求出的局部密度屬性ρi和距離屬性δi,繪制決策圖,取兩個屬性值都高的數據點作為聚類中心;
步驟6:將剩余點歸于密度等于或者高于當前點的最近點一類;
步驟7:計算出當前類別的邊界,然后找出邊界中密度最高點的密度作為閾值,去除當前類別中小于此密度的點;
步驟8:用SVM對每兩個類進行訓練,反饋一個結果值;
步驟9:根據反饋值對類進行合并,得出聚類結果。
2.根據權利要求1所述的一種反饋式密度峰值聚類方法及系統,其特征在于:利用非負矩陣分解對數據集進行降維,并利用反饋策略對初始聚類后的類進行合并,得出準確的聚類結果,這兩種方法的結合可以提高原密度峰值聚類算法在一類中同時出現多密度峰值時多聚類的魯棒性,并且可以提高在高維數據集上的準確率。
3.根據權利要求1所述的一種反饋式密度峰值聚類方法及系統,其特征在于:所述的數據集X={X1,X2,X3,……Xn}是一個n*d的矩陣,反饋系數一般取0.3~0.5,特殊情況根據實驗情況調整,截斷距離dc一般取2%,同樣,特殊情況根據實驗調整。
4.根據權利要求1所述的方法,其特征在于:所述的初始化聚類是指利用密度峰值聚類算法進行聚類,但由于原密度峰值聚類算法在一個類中出現多密度峰值時會將一個類多聚類,權利1所述的一種反饋式密度峰值聚類方法及系統采用反饋策略進行類合并,所以在選擇聚類中心的時候盡可能多的選擇聚類中心不會影響最后的聚類結果。
5.根據權利要求1所述的方法,其特征是,所述的步驟8使用SVM對每兩個類進行訓練,反饋一個結果值是指:假設得到的聚類結果集C={c1,c2,c3,…ck},x={x1,x2,x3,…xn}和y={y1,y2,y3,…ym}分別為用SVM 訓練后類h和類p的支持向量,代表數據點到所有類h中其他數據點的最短距離,代表數據點到類p中數據點的最短距離。那么類h和類p之間的反饋值為:
6.根據權利要求1所述的方法,其特征是,所述的步驟9根據反饋值對類進行合并是指:如果上面得到的F(Ch,Cp)>d,我們將這兩個類進行合并,直到所有的類都被訪問結束合并。
7.一種實現上述任一權利要求所述方法的系統,其特征在于:密度峰值聚類模塊和利用反饋策略合并類模塊,其中密度峰值聚類進行初步聚類,首先用非負矩陣對數據集進行特征提取,然后基于密度峰值聚類算法繪制決策圖選擇聚類中心,分配所有剩余的網格單元,去除噪聲單元,輸出聚類結果;反饋策略合并類模塊利用SVM訓練前面得出的聚類結果,反饋結果值,并且根據結果值進行合并類,得出準確的聚類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國礦業大學,未經中國礦業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710131145.9/1.html,轉載請聲明來源鉆瓜專利網。





