[發明專利]一種基于樣本密度和自適應調整聚類中心的聚類分析方法有效
| 申請號: | 202010158639.8 | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111382797B | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 張維;馬志華 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 劉新瓊 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 樣本 密度 自適應 調整 中心 聚類分析 方法 | ||
1.一種基于樣本密度和自適應調整聚類中心的軸承故障數據聚類分析方法,其特征在于步驟如下:
步驟1:選擇軸承故障數據初始聚類中心
1-1:初始化聚類數目初始化中心點集n為樣本數量;
1-2:聚類處理的軸承故障數據集X={x1,x2,...,xi,...,xn},每個樣本對象包含p維特征{xi1,xi2,...,xil,...,xip},xil分別表示第i個對象的第l個特征值,i≤n,l≤p;計算軸承故障數據集中每個樣本對象的密度值ρ(xi),如公式(1)所示,并按照密度值的大小降序排列;
ρ(xi)=exp[-v(xi)] (1)
其中:為樣本間的歐氏距離,i=1,2,...,n;j=1,2,...,n;
1-3:從軸承故障樣本數據集中選取處于最密集區域的樣本,即最大的密度值max{ρ(xi)}對應的樣本對象作為第一個類簇的初始聚類中心M1,并將其加入到初始化中心點集M中;
1-4:計算該聚類中心M1對應的鄰域半徑以該聚類中心點為中心以為半徑的圓形區域所包含軸承故障數據對象的集合,作為軸承故障數據對象的鄰域
軸承故障數據對象的鄰域半徑R:
其中:cR為半徑調節系數,0<cR≤1,為軸承故障數據對象之間的平均距離;
1-5:從軸承故障樣本數據集中刪除聚類中心M1和其鄰域內的樣本數據,在剩余的樣本數據中繼續尋找下一個聚類中心;
1-6:重復執行1-2~1-5,直到找到K個初始聚類中心點{M1,M2,...,Mi,...,MK};
1-7:保存軸承故障數據初始聚類中心點集M={M1,M2,...,Mi,...,MK};
步驟2:軸承故障數據初始樣本分配和聚類處理
2-1:將軸承故障樣本數據集X={x1,x2,...,xi,...,xn}中的樣本對象分配到距離其最近的中心點所在的類簇中,形成初始類簇{C1,C2,...,CK},并計算聚類的誤差平方和SSEK:
其中,是相應類Ci中ni個樣本的均值,i=1,2,...,K;
2-2:更新類簇中心,在每一類簇中重新尋找距離所在類簇其它軸承故障數據樣本點距離總和最小的點作為新的類簇中心;
2-3:計算誤差平方和,若與上次誤差平方和相同或者聚類中心不再改變,保存聚類中心點集Mk,并執行下一步,否則轉到2-1;
步驟3:軸承故障數據聚類子類簇合并
3-1:計算當前聚類結果的類間分散度DispK和類內聚合度AggrK;
計算每個子類Ci內所有樣本任意兩個元素之間的距離d,定義子類Ci的類內聚合度:
計算所有子類{C1,C2,...,CK}的類內聚合度取各個子類的類內聚合度的調和平均值,并根據不同類簇中樣本量的大小設置不同權重,定義為整個聚類的類內聚合度:
其中:wi為類Ci的聚合度AggrCi的調和權重,
使用最小生成樹算法對K個聚類中心{M1,M2,...,Mi,...,MK}之間的距離進行計算,可以得到K-1組距離數{D1,D2,...,DK-1};計算所有聚類中心之間的距離在最小生成樹上對應的最小距離總和sumD,定義整個聚類的類間分散度:
3-2:計算K個聚類中心{M1,M2,…,Mi,…,MK}之間的距離,找到距離最近的兩個子類簇;
3-3:合并距離最近的這兩個子類,K=K-1,得到當前K個聚類中心,將軸承故障樣本重新分配到距離其最近的中心點,并更新聚類中心M={M1,M2,…,Mi,…,MK};
3-4:計算合并后重新得到的聚類結果的類內聚合度AggrK和類間分散度DispK,計算合并后的聚類稠密度E,賦給E0;
計算聚類稠密度變化率:
使用新的類簇中心再次進行K-means處理,再次合并距離最近的類,并重新計算合并后的類簇稠密度;通過計算合并后聚類稠密度E的變化情況來判斷當前合并是否合理;
步驟4:子類合并后的軸承故障樣本數據分配和聚類處理
4-1:將軸承故障樣本數據集中的樣本對象分配到距離其最近的中心點所屬類中,并計算聚類的誤差平方和,在每一類簇中重新尋找距離所在類簇其他樣本點距離總和最小的點作為新的類簇中心;
4-2:計算誤差平方和,若與上次誤差平方和相同或者聚類中心不再改變,保存聚類中心點集M={M1,M2,...,Mi,...,MK},并執行下一步;否則轉到4-1;
4-3:找到距離最近得兩個聚類子集,合并這兩個子集,K=K-1,更新聚類中心;
步驟5:軸承故障數據聚類合并的合理性判斷
5-1:計算合并后聚類結果的AggrK、DispK和合并后的E值;
5-2:評判E值變化,判斷當前合并是否合理,如果合并合理,E0=E,并使用當前聚類中心進行下次聚類中,轉到4-1;如果合并不合理,則執行5-3;
使用指數爆炸2n來判斷相對聚類性能,當新的評判值E相對比前次評判值E0的比值在拋物線2n下方,即log2E-log2E0<1時,滿足合并條件后,繼續下一次合并,再判斷其合并性能;當log2E-log2E0>1時聚類性能太差,不合并最近聚類中心,算法終止;
5-3:K=K+1,算法結束,輸出最佳軸承故障數據聚類數目K、聚類中心點集M。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010158639.8/1.html,轉載請聲明來源鉆瓜專利網。





