[發明專利]一種分布熵驅動的模糊C均值軟平衡聚類算法在審
| 申請號: | 202011348075.0 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112288037A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 胡文軍;王哲昀;尹宏偉;蔣云良 | 申請(專利權)人: | 湖州師范學院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 湖州果得知識產權代理事務所(特殊普通合伙) 33365 | 代理人: | 戴心同 |
| 地址: | 313000 *** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布 驅動 模糊 均值 平衡 算法 | ||
本發明涉及機器學習領域中的聚類問題,具體涉及一種分布熵驅動的模糊C均值軟平衡聚類算法,包括以下步驟:第一,定義硬標簽矩陣的分布熵;第二,定義硬標簽矩陣和模糊隸屬度矩陣之間的對應關系;第三,采用Frobenius范數構建平方損失項度量硬標簽矩陣和模糊隸屬度矩陣之間的距離;第四,結合標簽矩陣的分布熵和平方損失項,構建分布熵驅動的模糊C均值軟平衡聚類模型;第五,采用交替優化的策略對模型進行求解。
技術領域
本發明涉及機器學習領域中的聚類問題,具體涉及一種分布熵驅動的模糊C均值軟平衡聚類算法。
背景技術
聚類作為一種非監督的機器學習方法,已成為模式識別和機器學習領域的研究熱點。聚類的目標是將相似的樣本數據聚到同一個類中。聚類可以發現數據中潛在的分布或結構,在圖像分割、搜索引擎,生物醫學應用等領域中得到了廣泛的應用。與一般的聚類算法相比,基于模糊理論的模糊C均值聚類(Fuzzy C-means,FCM)在聚類過程中表現出了很大的優勢。該算法不僅考慮了每個樣本點與所有聚類中心的相似性,而且通過其加權指數指明每個樣本屬于該類別的程度。FCM算法更加符合真實情況下的聚類,提供了更加靈活的聚類結果。
然而在許多實際應用中,聚類任務面臨著樣本數量需要平衡的情況。例如在社區聚類任務中,不同社區的人數應該滿足平衡性要求,如果聚類結果是失衡的會導致許多社會問題。在過去的二十年中,平衡聚類問題引起了眾多研究者的廣泛關注,產生了許多平衡聚類算法。根據平衡的嚴密性,平衡聚類可分為硬平衡聚類和軟平衡聚類。硬平衡聚類通過添加規模約束來固定聚類的規模,使不同類別的樣本數目絕對相等。典型的硬平衡聚類包括約束K均值聚類(Constrained K-means,CKM),平衡K均值聚類(Balanced K-Means,BKM)等方法。軟平衡聚類不需要每個類別的樣本個數絕對相等,通過將標簽分布約束集成到聚類模型中,使聚類結果的標簽分布趨于平衡。典型的軟平衡聚類包括規模正則化切(SizeRegularized Cut,SRC),軟模型聚類(Soft Model-based Clustering,SMC),最小二乘回歸平衡聚類(Balanced Clustering with Least Square Regression,BCLS),局部和全局平衡聚類(Local and Global Balanced Clustering,LGB)等方法。由于FCM算法沒有考慮不同類別的規模約束,不具備實現平衡聚類的條件。為了解決這個問題,本發明將聚類模型與標簽分布熵結合在一起,驅動FCM算法生成平衡聚類結果。
發明內容
本發明的目的就是解決現有技術中的問題,使FCM算法實現平衡聚類。為了實現該目的,本發明提出利用標簽矩陣構建數據的分布熵,設計了一種分布熵驅動的模糊C均值(Distribution Entropy Driven Fuzzy C-Means,DED-FCM)軟平衡聚類方法,具體技術方案如下:
一種分布熵驅動的模糊C均值軟平衡聚類算法,包括以下步驟:
第一,定義硬標簽矩陣的分布熵:
E(Y)=||YT1||2 (1)
其中,Y=[yik]∈Rn×c且Y∈Ind,它是硬標簽矩陣,1為元素全為1的列向量。
第二,定義硬標簽矩陣和模糊隸屬度矩陣之間的對應關系:
其中,為模糊隸屬度矩陣。
第三,采用Frobenius范數構建平方損失項度量硬標簽矩陣和模糊隸屬度矩陣之間的距離:
第四,結合標簽矩陣的分布熵和平方損失項,構建分布熵驅動的模糊C均值軟平衡聚類模型,如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖州師范學院,未經湖州師范學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011348075.0/2.html,轉載請聲明來源鉆瓜專利網。





