[發(fā)明專利]一種基于聚類的離群點檢測方法在審
| 申請?zhí)枺?/td> | 201510848176.7 | 申請日: | 2015-11-27 |
| 公開(公告)號: | CN105512206A | 公開(公告)日: | 2016-04-20 |
| 發(fā)明(設(shè)計)人: | 劉文婷 | 申請(專利權(quán))人: | 河海大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京縱橫知識產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 朱妃;董建林 |
| 地址: | 210098 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 離群 檢測 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種離群點檢測方法,特別是涉及一種基于聚類的離群點檢測 方法,屬于離群數(shù)據(jù)挖掘技術(shù)領(lǐng)域。
背景技術(shù)
離群數(shù)據(jù)挖掘技術(shù)是目前數(shù)據(jù)挖掘領(lǐng)域的研究熱點之一,聚類方法在數(shù)據(jù) 挖掘領(lǐng)域具有較好的研究基礎(chǔ)。
目前,已有的離群數(shù)據(jù)挖掘主要基于距離或最近鄰概念進行的離群挖掘。 隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的廣泛普及,大量的數(shù)據(jù)在金融和經(jīng)濟分析、電子通 信、現(xiàn)代物流等不同領(lǐng)域廣泛應(yīng)用,數(shù)據(jù)本身的復(fù)雜性,難以準(zhǔn)確判斷數(shù)據(jù)是 否異常,導(dǎo)致難以給出確切的離群數(shù)據(jù)。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于,克服現(xiàn)有技術(shù)中的不足,提供一種基于聚類的離 群點檢測方法,可有效地從大量數(shù)據(jù)集中發(fā)現(xiàn)隱藏在其中的離群數(shù)據(jù),確定每 個數(shù)據(jù)對象的離群度,檢測準(zhǔn)確高效,可廣泛應(yīng)用于金融和經(jīng)濟分析、電子通 信、現(xiàn)代物流等領(lǐng)域。
為了達到上述目的,本發(fā)明所采用的技術(shù)方案是:
一種基于聚類的離群點檢測方法,包括以下步驟:
1)獲取數(shù)據(jù)集并采用改進的k_means聚類算法計算出k個類簇;
2)對k個類簇進行劃分,劃分生成大類簇集BC和小類簇集SC;
依據(jù)每個類簇|Ci|(i=1,2…k)包含的數(shù)據(jù)對象個數(shù)對k個類簇進行排序,將包 含的數(shù)據(jù)對象個數(shù)大于設(shè)定閾值的類簇劃分入大類簇集BC,包含的數(shù)據(jù)對象 個數(shù)小于設(shè)定閾值的類簇劃分入小類簇集SC;
3)基于大小類簇的方法分別計算大類簇集內(nèi)大類簇和小類簇集內(nèi)小類簇 中數(shù)據(jù)對象的離群因子,匯總形成離群因子序列;
4)基于離群因子序列確定離群數(shù)據(jù)。
本發(fā)明進一步設(shè)置為,所述步驟1)獲取數(shù)據(jù)集并采用改進的k_means聚 類算法計算出k個類簇,具體包括以下步驟:
1-1)獲取數(shù)據(jù)集D;
數(shù)據(jù)集用D={x1,x2,…,xi,…,xn},i=1,2…n表示,其中,n為數(shù)據(jù)集D大小,xi為數(shù)據(jù)集中的數(shù)據(jù)對象;
1-2)采用最大最小聚類方法,初始化m個聚類中心;
1-2-a)根據(jù)式(1)計算數(shù)據(jù)集D中任意數(shù)據(jù)對象xi到樣本中心的距離di, 形成距離樣本;
其中,xi數(shù)據(jù)對象,i=1,2…n,為樣本中心、即為數(shù)據(jù)集中所有數(shù)據(jù)對象樣本的均值,樣本中心的計算公式為
從距離樣本中選取與樣本中心相距的距離為下限值的第一樣本xa,作為第 一個初始聚類中心o1;
1-2-b)當(dāng)初始化m=2時,從數(shù)據(jù)集中除第一樣本xa、選出與第一樣本xa相 距的距離為上限值的第二樣本xb作為第二個初始聚類中心o2;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué),未經(jīng)河海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510848176.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種識別離群交通數(shù)據(jù)的方法
- 一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法
- 一種基于角度的高維數(shù)據(jù)離群檢測方法
- 離群點檢測方法和裝置
- 一種去趨勢分析差分隱私保護的直方圖數(shù)據(jù)發(fā)布方法
- 異常數(shù)據(jù)檢測方法及裝置
- 將未經(jīng)監(jiān)督參數(shù)學(xué)習(xí)用于離群值檢測以識別生產(chǎn)用生物體
- 動力系統(tǒng)運行異常點檢測方法
- 基于離群參數(shù)的設(shè)備故障預(yù)警方法、裝置、設(shè)備及介質(zhì)
- 眼動數(shù)據(jù)的離群處理方法及裝置、計算機設(shè)備、存儲介質(zhì)





