[發明專利]一種基于聚類的離群點檢測方法在審
| 申請號: | 201510848176.7 | 申請日: | 2015-11-27 |
| 公開(公告)號: | CN105512206A | 公開(公告)日: | 2016-04-20 |
| 發明(設計)人: | 劉文婷 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 朱妃;董建林 |
| 地址: | 210098 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 離群 檢測 方法 | ||
1.一種基于聚類的離群點檢測方法,其特征在于,包括以下步驟:
1)獲取數據集并采用改進的k_means聚類算法計算出k個類簇;
2)對k個類簇進行劃分,劃分生成大類簇集BC和小類簇集SC;
依據每個類簇|Ci|(i=1,2…k)包含的數據對象個數對k個類簇進行排序,將包 含的數據對象個數大于設定閾值的類簇劃分入大類簇集BC,包含的數據對象 個數小于設定閾值的類簇劃分入小類簇集SC;
3)基于大小類簇的方法分別計算大類簇集內大類簇和小類簇集內小類簇 中數據對象的離群因子,匯總形成離群因子序列;
4)基于離群因子序列確定離群數據。
2.根據權利要求1所述的一種基于聚類的離群點檢測方法,其特征在于, 所述步驟1)獲取數據集并采用改進的k_means聚類算法計算出k個類簇,具體 包括以下步驟:
1-1)獲取數據集D;
數據集用D={x1,x2,…,xi,…,xn},i=1,2…n表示,其中,n為數據集D大小,xi為數據集中的數據對象;
1-2)采用最大最小聚類方法,初始化m個聚類中心;
1-2-a)根據式(1)計算數據集D中任意數據對象xi到樣本中心的距離di, 形成距離樣本;
其中,xi數據對象,i=1,2…n,為樣本中心、即為數據集中所有數據對 象樣本的均值,樣本中心的計算公式為
從距離樣本中選取與樣本中心相距的距離為下限值的第一樣本xa,作為第 一個初始聚類中心o1;
1-2-b)當初始化m=2時,從數據集中除第一樣本xa、選出與第一樣本xa相 距的距離為上限值的第二樣本xb作為第二個初始聚類中心o2;
1-2-c)當初始化m=3時,從數據集中除第一樣本xa和第二樣本xb、計算任 意數據對象xi到第一樣本xa和第二樣本xb的距離分別為dia和dib,取di為dia和dib中的下限值、即di=min(dia,dib);
遍歷數據集中除第一樣本xa和第二樣本xb外其余數據對象,形成除第一樣 本xa和第二樣本xb外的數據對象距離集di(i≤n,i≠a,i≠b);
從di(i≤n,i≠a,i≠b)中選取上限值、即獲得對應的數據對象xc作為 第三個聚類中心o3;
1-2-d)當初始化m≤k時,針對已經獲得的k-1個初始聚類中心,計算未被 作為聚類中心的數據對象xj到每一聚類中心的距離djp(p=1,2…,k-1),取dj為 djp中的下限值、即dj=min(dj1,dj2,…,dj(k-1)),其中,j=1,2…n;
遍歷數據集中未被作為聚類中心的數據對象,形成除k-1個初始聚類中心 外的數據對象距離集,并從中選取距離上限值對應的數據對象xq作為第m個聚 類中心om;
1-3)采用改進的k_means聚類算法,計算出k個類簇;
1-3-1)選擇聚類數搜索范圍[kmin,kmax],其中,kmin=2,n為數據 集D大小;
1-3-2)Fork=kmintokmax,即循環執行如下操作,
1-3-2a)按照步驟1-2)的方法初始化k個初始聚類中心ok;
1-3-2b)采用k_means聚類算法,對數據集中每個數據對象xp,找出與數 據對象xp相距的距離為下限值的聚類中心oi,并將數據對象xp分配到聚類中心 oi所標明的類簇Ci中;
1-3-2c)計算聚類結果指標值SILHOUETTE;
1-3-3)當指標值為上限值時,其所對應的指標值k值即為所需選定的聚類 數,所對用的聚類則為所需選定的聚類;
其中,指標值為上限值、即
a(t)表示類簇Cj的數據對象t與類簇Cj中所有數據對象的平均距離,令 d(t,Ci)表示類簇Cj的數據對象t與另一類簇Ci中所有數據對象的平均距離,則 b(t)=min{d(t,Ci)},i=1,2,…,k且k≠j。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510848176.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:關聯事件類型的檢測方法及裝置
- 下一篇:一種實體推薦方法及裝置





