[發明專利]一種簇特征加權的模糊緊致散布聚類方法有效
| 申請號: | 201410413719.8 | 申請日: | 2014-08-20 |
| 公開(公告)號: | CN104182511B | 公開(公告)日: | 2017-09-26 |
| 發明(設計)人: | 周媛;王麗娜;何軍 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京眾聯專利代理有限公司32206 | 代理人: | 顧進,葉涓涓 |
| 地址: | 210044 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特征 加權 模糊 散布 方法 | ||
技術領域
本發明屬于數據處理技術領域,尤其是涉及一種簇特征加權的模糊緊致散布聚類方法。
背景技術
在自然科學和社會科學中,存在著大量的分類問題,聚類方法是研究(樣品或指標)分類問題的一種統計分析方法,同時也是數據挖掘的一個重要算法,應用領域非常廣泛。模糊C-均值(FCM)聚類算法是常用的無監督模式識別方法,很多人不斷對FCM算法進行改進,這些算法考慮了樣本各特征參數對聚類中心的影響,改善了噪聲、異常數據影響等情況。但是,這些基于FCM的聚類算法,實質都只考慮了樣本的類內緊致性(類內散度),而忽略了樣本類間散布性(類間散度),不能很好的處理樣本分布不均衡的數據聚類問題。Kuo-Lung Wu等人提出的FCS(Fuzzy Compactness and Separation)算法考慮了類內緊致和類間散布,并兼容了樣本的硬劃分和模糊劃分,這更符合實際情況;國內有宋風溪等人提出了最大散度差判別準則的分類方法,該準則綜合考慮類間散度和類內散度來求最優投影向量以對樣本進行分類;皋軍等人將模糊度引入了最大散度差判別準則提出了FMSDC(fuzzy maximum scatter difference discriminant criterion)算法,在模糊聚類的同時進行了降維;支曉斌等人指出皋軍等人的算法中的錯誤,提出FMSDC-FCS聚類算法,該算法是皋軍等人算法的正確版本,利用FCM算法初始化隸屬度和樣本均值,再用FMSDC算法進行降維,用FCS算法對降維數據進行聚類,其聚類實質還是采用FCS算法。
而在利用上述算法進行數據分類的過程中,我們發現,實際數據有些處于某類硬劃分區域內,這些數據的隸屬度就不需要模糊化,并且,對于樣本分布不均衡數據如何進行有效劃分,這是FCM算法以及相關擴展FCM算法所不能解決的。FCS算法雖然考慮了樣本硬劃分問題,但是卻沒有考慮處于硬劃分邊界上的樣本情況,這就導致了對實際數據進行分類時,遇到邊界數據時出現算法失效的問題。
發明內容
針對現有的WFCM算法在聚類時沒有考慮樣本硬劃分實際情況,不能很好處理樣本分布不均衡數據劃分,FCS算法沒有考慮硬劃分邊界點的情況以及忽略樣本特征參數對各類聚類影響的問題,本發明公開了一種簇特征加權的模糊緊致散布聚類方法。
為了達到上述目的,本發明提供如下技術方案:
一種簇特征加權的模糊緊致散布聚類方法,包括如下步驟:
步驟一:設置隸屬度指數m、特征加權指數α∈[-10,-1]∪(1,10]、β∈{0.005,0.05,0.5,1},初始迭代次數p=0以及迭代誤差ε>0,隨機生成初始聚類中心ai,(s為特征參數個數);
步驟二:根據下式計算系數ηi:
其中,為樣本均值;
步驟三:根據下式更新樣本隸屬度μij:
記
當樣本點xj存在落在硬劃分邊界上時,此時Δij=0,在保證各樣本點相對于第i類的距離尺度不變的前提下,對所有Δij≥0的利用P(Δij)進行調整:
調整后利用下式計算新的μij:
因為有樣本點xj落在第i類硬劃分區域內,所以會有μij<0,因此對μij進行硬劃分調整:
步驟四:根據下式計算特征權重ωik:
記
若Δik<0,因為ωik∈[0,1],所以需將Δik投影到大于0的區間且保證各樣本的第k個特征參數與第i類的硬劃分區的距離尺度不變,于是利用下式調整Δk:
調整后利用特征權重公式計算新的ωik;
步驟五:根據下式計算聚類中心aik:
步驟六:令迭代次數p=p+1,直到否則轉到步驟二;
步驟七:將第p次迭代得到的μij輸出,根據即第j個樣本屬于第i類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410413719.8/2.html,轉載請聲明來源鉆瓜專利網。





