[發(fā)明專利]一種基于信息熵權重三支決策策略的數據集成聚類方法在審
| 申請?zhí)枺?/td> | 201810810659.1 | 申請日: | 2018-07-23 |
| 公開(公告)號: | CN109190659A | 公開(公告)日: | 2019-01-11 |
| 發(fā)明(設計)人: | 徐健鋒;梁偉;劉斕;嚴方圓;杜振國 | 申請(專利權)人: | 南昌大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 南昌新天下專利商標代理有限公司 36115 | 代理人: | 施秀瑾 |
| 地址: | 330031 江西省*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類 決策策略 數據集成 信息熵 權重 聚類集合 算法選擇 局部權 魯棒性 決策 | ||
1.一種基于信息熵權重三支決策策略的數據集成聚類方法,其特征是包括如下步驟:
(1)候選集成聚類成員初步生成;
(2)基于三支決策的局部權重算法選擇基礎聚類成員;
(3)基于最終的基礎聚類集合的聚類集成;
(4)結束。
2.根據權利要求1所述的一種基于信息熵權重三支決策策略的數據集成聚類方法,其特征是步驟(1)所述的候選集成聚類成員初步生成,其步驟如下:
1)利用經典數據聚類算法對數據集D={d1,d2,...,dx}做聚類操作;
2)將聚類次數控制參數m置初值為1;
3)判斷控制參數m是否小于或等于備選聚類成員個數M,是則執(zhí)行步驟4),否則轉到步驟6);
4)得到第m次聚類己為其中集合πm的基數個數為|πm|=Nm;
5)將控制參數m執(zhí)行m=m+1,然后轉到步驟3);
6)生成備選的備選聚類集合將所有備選聚類成員Π={π1,π2,....,πM}標上不確定標記;
7)結束。
3.根據權利要求1所述的一種基于信息熵權重三支決策策略的數據集成聚類方法,其特征是步驟(2)所述的基于三支決策的局部權重算法選擇基礎聚類成員,其步驟為:
1)設置控制參數r初值為1,設置循環(huán)次數限制k;
2)判斷控制參數r是否小于或等于k,若是則執(zhí)行下一步驟,否則將Π中所有元素都標上確定標記并且轉到步驟10;
3)計算Π={π1,π2,...,πM}中標有不確定標記聚類的任何一個類簇πm∈Π,相對于Π中所有聚類的不確定信息熵,其計算公式為:其中1≤m≤M,1≤n≤NM;1≤μ≤M,1≤j≤NM,|*|為集合*的元素個數;
4)計算步驟3)中得到的πm中每個類簇的平均值;
其計算公式為:其中Nm=|πm|;
5)計算步驟3)中得到的備選聚類πm中的標準差;
其計算公式為:
6)使用公式W(*)=e-*歸一化獲得每個聚類中類簇的不確定信息熵平均值Ψ(πm)和標準差σ(πm),作為每個聚類的二種權重W(Ψ(πm))和W(σ(πm)),使得二個權重的取值區(qū)間為[0,1];
7)設定權重W(Ψ(πm))的閾值為α和權重W(σ(πm))的閾值為β;
8)將步驟6)中計算得出的所有備選聚類的W(Ψ(πm))與α進行比較,W(σ(πm))與β進行比較;
若某聚類πm∈Π(W(Ψ(πm))<α)∧(W(σ(πm))>β),則從Π={π1,π2,...,πM}中刪除這個聚類;
若某聚類πm∈Π存在(W(Ψ(πm))>α)∧(W(σ(πm))<β),則保留該聚類,并將不確定標記修改為確定標記;
若某聚類πm∈Π存在((W(Ψ(πm))<α)∧(W(σ(πm))<β))或((W(Ψ(πm))>α)∧(W(σ(πm))>β)),則保留不確定標記;
9)將步驟8)中所有保留的備選聚類數量重新記為M,則保留的備選聚類記為Π={π1,π2,...,πM},若此時Π中所有聚類πm∈Π都沒有((W(Ψ(πm))<α)∧(W(σ(πm))<β))或((W(Ψ(πm))>α)∧(W(σ(πm))>β))的現象,則轉到步驟10);否則將控制參數r加1,返回步驟2);
10)得到最終的基礎聚類集合Π={π1,π2,...,πM}。
4.根據權利要求1所述的一種基于信息熵權重三支決策策略的數據集成聚類方法,其特征是步驟(3)所述的基于最終的基礎聚類集合的聚類集成,其步驟為:
1)基于上述獲得基礎聚類中類簇的權重信息,計算數據集D中任意二個元素在確定聚類集合中出現在各個聚類同一類簇中的次數及其與該類簇權重的乘積作為任意二個元素間的帶權集成距離;
其中di∈D,dj∈D并且di≠dj,
Cnm為聚類πm中di所在的類簇,記為di∈Cnm,Cnm∈πm,n∈[1,Nm];
wim等于
如果di∈Cnm時,dj也屬于聚類πm中的類簇Cnm時Φijm=1;
如果di∈Cnm時,dj不屬于聚類πm中的類簇Cnm時Φijm=0;
2)基于步驟1)獲得的數據集D={d1,d2,…dx}中任意二個元素間的帶權集成距離Dis(di,dj)作為層次聚類方法中元素間的聚類距離;對數據集D實施層次聚類,并獲得最后的集成聚類輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南昌大學,未經南昌大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810810659.1/1.html,轉載請聲明來源鉆瓜專利網。





