[發明專利]一種基于信息熵權重三支決策策略的數據集成聚類方法在審
| 申請號: | 201810810659.1 | 申請日: | 2018-07-23 |
| 公開(公告)號: | CN109190659A | 公開(公告)日: | 2019-01-11 |
| 發明(設計)人: | 徐健鋒;梁偉;劉斕;嚴方圓;杜振國 | 申請(專利權)人: | 南昌大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 南昌新天下專利商標代理有限公司 36115 | 代理人: | 施秀瑾 |
| 地址: | 330031 江西省*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類 決策策略 數據集成 信息熵 權重 聚類集合 算法選擇 局部權 魯棒性 決策 | ||
一種基于信息熵權重三支決策策略的數據集成聚類方法,包括如下步驟:((1)候選集成聚類成員初步生成;(2)基于三支決策的局部權重算法選擇基礎聚類成員;(3)基于最終的基礎聚類集合的聚類集成;(4)結束。本發明與現有的技術相比較,提升了集成聚類的抗干擾性、魯棒性和集成聚類的最終效果。
技術領域
本發明屬于數據挖掘、機器學習領域中對研究對象或數據的聚類方法研究。
背景技術
聚類集成方法是一種有效的聚類技術,基于聚類權重信息熵的集成策略是其中的一種有效的新型集成聚類方法。但是該方法存在聚類效果對基礎聚類敏感的問題。
基于聚類權重信息熵的集成策略主要方法為:基于某個特定數據集合對象,采用普通聚類方法實施M次聚類生成M種基礎聚類,并且利用信息熵方法確定各個基礎聚類及各個類簇的權重。基于上述基礎聚類及其權重構建上述數據集合元素間的帶權距離矩陣。然后以帶權距離矩陣為基礎,采用傳統層次聚類或其它經典聚類方法,不斷聚合高權重元素群體,直至獲得最終聚類。對于聚類結果優劣程度的評判多采用NMI指標,NMI取值在0到1之間,數值越大,聚類效果越好。選取一個聚類結果πG作為評判標準,那么對于測試集聚類元素π'有如下計算公式:
其中n'是π'中的類簇個數,nG是πG中的類簇個數,n′i是π'中第i個類簇的元素個數,是πG中第j個類簇的元素個數,nij是π'中第i個類簇和πG中第j個類簇共同元素的個數。
發明內容
基礎聚類是集成聚類技術的聚類基礎,其質量與最終聚類結果質量緊密相關。本發明基于信息熵權重三支決策的策略,提出了一種改進基于聚類權重信息熵的集成聚類技術中基礎聚類質量的新方法,從而能夠有效實現聚類集成結果質量的提升。
本發明是通過以下技術方案實現的。
本發明所述的一種基于信息熵權重三支決策策略的數據集成聚類方法,包括如下步驟:
(1)候選集成聚類成員初步生成;
(2)基于三支決策的局部權重算法選擇基礎聚類成員;
(3)基于最終的基礎聚類集合的聚類集成;
(4)結束。
本發明步驟(1)所述的候選集成聚類成員初步生成,其步驟如下:
1)利用經典數據聚類算法對數據集D={d1,d2,...,dx}做聚類操作;
2)將聚類次數控制參數m置初值為1;
3)判斷控制參數m是否小于或等于備選聚類成員個數M,是則執行步驟4),否則轉到步驟6);
4)得到第m次聚類己為其中集合πm的基數個數為|πm|=Nm;
5)將控制參數m執行m=m+1,然后轉到步驟3);
6)生成備選的備選聚類集合將所有備選聚類成員Π={π1,π2,...,πM}標上不確定標記;
7)結束。
本發明步驟(2)所述的基于三支決策的局部權重算法選擇基礎聚類成員,其步驟為:
1)設置控制參數r初值為1,設置循環次數限制k。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南昌大學,未經南昌大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810810659.1/2.html,轉載請聲明來源鉆瓜專利網。





