[發明專利]離群點檢測方法和裝置在審
| 申請號: | 201610579014.2 | 申請日: | 2016-07-21 |
| 公開(公告)號: | CN107644032A | 公開(公告)日: | 2018-01-30 |
| 發明(設計)人: | 徐一文 | 申請(專利權)人: | 中興通訊股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 北京派特恩知識產權代理有限公司11270 | 代理人: | 姚開麗,張振偉 |
| 地址: | 518057 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 離群 檢測 方法 裝置 | ||
技術領域
本發明涉及數據檢測領域,尤其涉及一種離群點檢測方法和裝置。
背景技術
實際應用中的應用軟件和各項服務等,通常需要收集眾多數據,并根據這些數據進行分析,從而更好地服務用戶,但是收集到的數據中往往存在離群點數據(也叫做異常數據),因此需要對這些數據進行異常檢測并剔除檢測出的異常數據。比如,應用在可穿戴設備上的手機健康監測應用軟件,可以實時記錄用戶的各項生命體征,但是用戶的一些異常行為,如旋轉手機、行走時不慎跌倒、設備從高處跌落等產生的相關數據,軟件也會記錄下,這些異常數據的摻入會影響正常數據的分析,所以在實際應用中需要快速準確地剔除這些異常數據,從而根據正常數據對用戶行為進行分析,提升用戶體驗。
目前,常用的離群點檢測方法有基于距離的離群點檢測方法和基于角度的離群點檢測方法。然而,現在的數據集的規模趨向于高維數,基于距離的離群點檢測方法無法適用,因為該方法的檢測效果會隨著數據集維數的增加而逐漸降低;基于角度的離群點檢測雖然能夠應對高維數的數據集的離群點檢測,但是計算復雜度高,實用性不好。
發明內容
有鑒于此,本發明實施例期望提供一種離群點檢測方法和裝置,以降低離群點檢測的時間復雜度。
本發明實施例的技術方案是這樣實現的:
一種離群點檢測方法,包括:
對原始數據點集進行聚類,形成N個聚類簇;
將所述原始數據點集中不屬于任一所述聚類簇的數據點加入初始離群數據點集;
計算所述初始離群數據點集中的每個數據點的基于角度的離群系數;
若所述基于角度的離群系數小于預設離群系數閾值,將對應的所述初始離群數據點集中的數據點加入最終離群數據點集。
如上所述的方法,所述對原始數據點集進行聚類形成N個聚類簇,包括:
設置N個參數組,所述參數組為:參數組N(掃描半徑,最小包含點數);
通過基于密度的聚類算法DBSCAN,用每個所述參數組對所述原始數據點集進行聚類,形成N個所述聚類簇。
如上所述的方法,所述設置N個參數組之前還包括:
對所述原始數據點集進行預處理,所述預處理包括初始化處理、數值化分類處理、離散化處理、歸一化處理。
如上所述的方法,所述計算所述初始離群數據點集中的每個數據點的基于角度的離群系數包括:
計算所述初始離群數據點集的數據點與所述原始數據點集中的其他數據點的距離,對計算出的距離進行排序,確定前k個距離對應的數據點;
根據確定的前k個距離對應的數據點,以及基于角度的離群系數計算公式,計算所述初始離群數據點集中的每個數據點的基于角度的離群系數。
如上所述的方法,所述預設離群系數閾值的取值范圍為大于等于0,小于等于0.5。
一種離群點檢測裝置,包括:
聚類模塊,用于對原始數據點集進行聚類,形成N個聚類簇;
第一處理模塊,用于將所述原始數據點集中不屬于任一所述聚類簇的數據點加入初始離群數據點集;
計算模塊,用于計算所述初始離群數據點集中的每個數據點的基于角度的離群系數;
第二處理模塊,若所述基于角度的離群系數小于預設離群系數閾值,用于將對應的所述初始離群數據點集中的數據點加入最終離群數據點集。
如上所述的裝置,所述聚類模塊包括:
設置模塊,用于設置N個參數組,所述參數組為:參數組N(掃描半徑,最小包含點數);
第三處理模塊,用于通過基于密度的聚類算法DBSCAN,用每個所述參數組對所述原始數據點集進行聚類,形成N個所述聚類簇。
如上所述的裝置,還包括第四處理模塊,所述第四處理模塊用于對所述原始數據點集進行預處理,所述預處理包括初始化處理、數值化分類處理、離散化處理、歸一化處理。
如上所述的裝置,所述計算模塊具體用于:
計算所述初始離群數據點集的數據點與所述原始數據點集中的其他數據點的距離,對計算出的距離進行排序,確定前k個距離對應的數據點;
根據確定前k個距離對應的數據點,以及基于角度的離群系數計算公式,計算所述初始離群數據點集中的每個數據點的基于角度的離群系數。
如上所述的裝置,所述預設離群系數閾值的取值范圍為大于等于0,小于等于0.5。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中興通訊股份有限公司,未經中興通訊股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610579014.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種服裝摺景褶皺加工裝置
- 下一篇:電子式多功能打褶器





