[發明專利]基于密度的加權模糊C-均值聚類方法在審
| 申請號: | 202110471176.5 | 申請日: | 2021-04-29 |
| 公開(公告)號: | CN113010907A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 李媛潔;萬靜;王言言 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06F21/60 | 分類號: | G06F21/60;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍江省哈*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 密度 加權 模糊 均值 方法 | ||
本發明涉及一種基于密度的加權模糊C?均值聚類方法,數據數據挖掘數據對象的聚領域,本發明旨在解決傳統的FCM聚類算法在實際應用中存在的問題,傳統的FCM聚類方法直接對數據集中的數據進行處理,計算它們的目標函數,通過目標函數求出隸屬度函數以及聚類中心函數,導致聚類精度不高,不能夠滿足實際應用的需求。針對此問題,本文引入了基于密度的思想,對FCM聚類算法進行了改進,使得改進后的算法能夠提高聚類的精度。本發明可以避免噪聲對數據聚類的影響,具有較高的噪聲抗干擾能力,有效的提高了聚類的效率。
技術領域
本發明屬于計算機技術應用領域,涉及一種基于密度的加權模糊C-均值聚類方法。
背景技術
近年來,隨著數據挖掘技術的迅速發展,數據挖掘技術已經在很多領域得到廣泛的應用,例如經濟、環境、醫療金融等領域。聚類是數據挖掘中的一種無先驗條件的無監督分析方法,它是將數據集中的數據根據各自的特征分成不同的簇,各個簇之間盡可能的相異,簇內中的數據盡可能相似。聚類的方法多種多樣,經典的聚類方法有基于劃分的聚類方法、基于密度的聚類方法、基于網格的聚類方法、基于層次的聚類方法以及基于模型的聚類方法。
基于劃分的聚類方法中最經典的方法就是模糊C-均值聚類方法,即FCM聚類方法。它是在聚類的基礎上引入了模糊理論。基本思想是使得被劃分到同一簇的對象之間的相似度最大,而不同簇之間的相似度最小。模糊C-均值聚類算法是普通C均值算法的改進,它是利用隸屬度函數來確定某一數據對象的劃分類別,然后根據聚類中心函數來確定聚類中心,最終完成聚類的目的。
隨著數據的不斷增加,傳統的模糊C-均值聚類方法在處理數據時,導致聚類結果精度較低,聚類效果不佳。
發明內容
鑒于此,本發明主要解決隨著數據的多樣性,導致傳統模糊C-均值聚類方法的精度低的問題。本發明主要使用了基于密度的方法篩選出初始聚類中心,然后將KL-距離加入到模糊C-均值聚類方法中,構造一個新的目標函數,從而達到聚類的目的。
綜上,現有的模型很難從自身上來提高對數據中異常值和噪聲的魯棒性。
為了達到上述目的,本發明基于密度的聚類方法對傳統的模糊C-均值聚類方法進行了改進,其算法步驟如下:
步驟一:定義待說明的數據集D={x1,x2,…,xn}∈RS。
步驟二:先使用基于密度的方法來計算數據集中每個數據對象xi的局部密度
步驟三:計算數據集D中的每個數據對象的K-最近鄰KNNK(xi)={pj∈X|index_dist(xi,xj)≤k}。
步驟四:進一步地,計算數據集D中數據對象的密度平均值
步驟五:進一步,使用快速排序的方法將局部密度按照從小到大的順序進行排序,選取局部密度最大的點,作為初始聚類中心。
步驟六:進一步地,將K-最近鄰的值與密度的平均值進行比較,如果K-最近鄰的值大于密度的平均值,則保留簇中的數據;否則,將該數據對象從所屬的簇中刪除。
步驟七:重復第六步,直至將數據集D中的數據對象比較結束。
步驟八:計算每個簇中每個數據對象的KL-距離根據KL-距離的值進一步判斷簇中數據對象的相似度,如果D(X||Y)=0,則說明兩個數據對象相似,則可以劃分為同一個簇中。
步驟九:構造一個新的模糊聚類的目標函數:
步驟十:使用拉格朗日乘子法構造拉格朗日函數,并對構造的拉格朗日函數進行求導,得到隸屬度函數uij,其表達式為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110471176.5/2.html,轉載請聲明來源鉆瓜專利網。





