[發明專利]一種確定異常數據的方法及裝置有效
| 申請號: | 201410108593.3 | 申請日: | 2014-03-21 |
| 公開(公告)號: | CN104933080B | 公開(公告)日: | 2018-06-26 |
| 發明(設計)人: | 顏海濤 | 申請(專利權)人: | 中國移動通信集團湖北有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 張穎玲;王黎延 |
| 地址: | 430040 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 異常數據 最小數據單元 多維數據集 維度 子集 空間距離 遍歷 所述空間 遞歸 | ||
本發明公開了一種確定異常數據的方法,包括:根據對多維數據集的各個維度進行遍歷后得到的遍歷結果,將所述多維數據集分成N個與所述多維數據集維度相同的最小數據單元,并計算所有所述最小數據單元對應的空間距離值;根據所述空間距離值確定疑似異常數據集;在所述疑似異常數據集中選取一個疑似異常最小數據單元,按照維度組合遞歸的方法,將所述疑似異常最小數據單元、與所述疑似異常最小數據單元相鄰的最小數據單元組合成疑似異常數據子集,并計算所述疑似異常數據子集中的疑似異常數據單元的空間距離差值,進而確定所述疑似異常數據子集中的疑似異常數據單元是否為異常數據單元。本發明還公開了一種確定異常數據的裝置。
技術領域
本發明涉及多維數據分析技術,尤其涉及一種確定異常數據的方法及裝置。
背景技術
在數據分析和數據挖掘領域中,多維數據分析是非常重要的一個方面,所述多維數據分析能夠從復雜的多維數據中發現存在的問題或潛在的商機。
現有技術中,對多維數據集進行分析的方法有三種:第一,將多維數據集進行降維,采用決策樹等算法對多維數據集進行分析;第二,采用神經網絡等復雜模擬算法對多維數據集進行分析;第三,根據專家經驗對多維數據集進行分析。但上述方法存在下述問題:
(a)現有分析過程復雜,耗費時間長,甚至需要借助外部工具對多維數據集進行復雜的數據建模;
(b)技術人員需要對統計學或者數據分析等有一定基礎,因此,對技術人員的技術水平要求較高;
(c)現有技術中缺少將業務人員經驗和控制方法體現到數據顯示過程的機制,因此,使得輸出的數據僅僅為單純的數字信息,并不包含業務信息,非技術專業人員不能理解,導致輸出的數據可視化程度差;
(d)現有對多維數據集的分析過程側重于找出所述多維數據集中具有普遍性規律的數據集,將具有普遍性規律的數據集進行擬合,以便對其他類似場景下的多維數據集進行分析和預測,但此過程常忽略對異常數據的發現。
發明內容
為解決現有存在的技術問題,本發明實施例提供了一種確定異常數據的方法及裝置,能準確定位異常數據。
為達到上述目的,本發明的技術方案是這樣實現的:本發明提供了一種確定異常數據的方法,包括:
根據對多維數據集的各個維度進行遍歷后得到的遍歷結果,將所述多維數據集分成N個與所述多維數據集維度相同的最小數據單元,并計算所有所述最小數據單元對應的空間距離值;
根據所述空間距離值確定疑似異常數據集;
在所述疑似異常數據集中選取一個疑似異常最小數據單元,按照維度組合遞歸的方法,將所述疑似異常最小數據單元、與所述疑似異常最小數據單元相鄰的最小數據單元組合成疑似異常數據子集,并計算所述疑似異常數據子集中的疑似異常數據單元的空間距離差值,比較所述空間距離差值與所述疑似異常最小數據單元的空間距離值的大小,確定所述疑似異常數據子集中的疑似異常數據單元是否為異常數據單元;
其中,N為所述多維數據集中每個維度的維值個數的乘積。
進一步地,所述根據對多維數據集的各個維度進行遍歷后得到的遍歷結果之前,所述方法還包括:
輸入多維數據集,并輸入控制所述多維數據集的控制規則,根據所述控制規則將所述多維數據集轉換成待處理的數據對象。
進一步地,所述根據所述空間距離值確定疑似異常數據集,包括:
根據正態分布法則將所有所述空間距離值進行擬合,并選取與擬合所述空間距離值得到的正態分布的標準差距離最遠的X個點對應的數據作為疑似異常數據,與所述疑似異常數據對應的最小數據單元組成的集合為疑似異常數據集。
進一步地,所述計算所述疑似異常數據子集中的疑似異常數據單元的空間距離差值,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團湖北有限公司,未經中國移動通信集團湖北有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410108593.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據同步傳遞的電商平臺
- 下一篇:需求記錄、互動方法及其系統





