[發明專利]一種高維數據流異常點識別方法在審
| 申請號: | 201710045966.0 | 申請日: | 2017-01-13 |
| 公開(公告)號: | CN108304851A | 公開(公告)日: | 2018-07-20 |
| 發明(設計)人: | 祿盛;胡子豪;謝穎;馬藝緯;樸昌浩 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400065 重慶*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 算法 高維 異常點 異常點檢測 數據流 數據集 數據流模型 高維空間 快速檢測 異常因子 生成測試數據 預處理過程 儲存空間 高維數據 計算測試 降維處理 聚類分析 理論基礎 時間開銷 向量估計 最近鄰域 魯棒性 穩健性 魯棒 運算 優化 分析 | ||
一種高維數據流異常點檢測方法,用于快速檢測高維數據流中的潛在異常點。通過分析高維數據流模型的特點,提出運用基于魯棒預處理過程來提高算法在不規范數據集上的穩定性。由于算法在面對高維數據時不適用,提出基于最近鄰域和相似性生成測試數據集進行聚類分析,并基于角度向量估計選取相關數據集,以此對數據進行降維處理提高在高維空間的魯棒性,并加快異常點檢測方法的運算速度。最后基于角度異常點檢測方法計算測試數據集的局部異常因子,并依據局部異常因子進行異常點的識別。采用本發明方法,能夠有效提高算法在高維空間的穩健性,并在不降低算法精度的情況下,優化了算法的儲存空間以及降低了算法的時間開銷,為實時快速檢測高維數據流模型中的異常點提供了理論基礎。
技術領域
本發明涉及數據挖掘,異常點檢測等技術,特別是涉及一種高維數據流異常點識別方法。
背景技術
隨著科學技術的日益發展和人類社會的不斷進步,人們不管是在生活或是科研中都積累著海量的數據,而數據挖掘技術作為一種新興而重要的領域,其迅速發展為海量數據的充分利用注入了新的活力。因此,如何有效的從海量數據中發現有價值的異常數據在當下是迫切并且有意義的研究方向。
近年來,基于數據挖掘的異常點檢測技術研究已經取得了豐碩的成果。國內外的學者們針對不同的領域提出了許許多多的異常點檢測方法,對異常點檢測研究起到了積極的推動作用。歸納起來主要由三種異常檢測方法,分別是基于統計,基于距離,以及基于密度的異常檢測方法。基于統計的異常檢測方法一般需要知道數據的分布并對應建模,對符合特定分布的數據集有良好的效果。然而,這些數據并不總是符合特定模型的。基于距離的異常檢測算法對高維數據集有較好的適應性,但是需要人工憑經驗預設模型相關參數,對參數的依賴性較高,不符合我們數據流多變的特性。基于密度的算法對低維的數據集有良好的應用,但是隨著維數的增加,數據集將變得越來越稀疏,該方法將會失效。因此,傳統算法均不能針對高維數據有很好的應用。
伴隨著大規模的數據集,數據流模型也得到人們的關注。不同于傳統的靜態數據庫中的數據,數據流模型是有序的,通常是連續的、規模巨大、高速遷移并且數據分布經常隨時間變化。由于數據流的特點,這給當前傳統面對靜態數據集的異常點檢測算法提出了新的挑戰。第一,由于數據流的規模宏大,我們不可能把所有的數據存入硬盤或者內存;第二,高速的特性要求我們實時并且更快的對數據進行檢測;第三,傳統算法對于不斷遷移分布(數據遷移)的數據效果不是很理想。因此,提出有效的適應高維數據流模型的異常點檢測算法日益成為我們異常點檢測研究中的重點方向。
發明內容
針對上述背景中存在的問題,本發明提供了一種高維數據流異常點識別方法,以解決傳統異常點檢測方法不適用于高維數據流模型上的異常點檢測難題。
本發明采用的技術方案的步驟如下:
一種基于魯棒預處理過程和特征子空間的角度分布異常點檢測方法,用于高維數據流異常點檢測,包括步驟:
A.初始化局部異常因子數據集LOS和特征數據集S,并實時采集高維數據流數據的數據集X;
B.對數據集X進行預處理,依次運用中位數標準化方法和最大最小標準方法化進行特征歸一化為X*;
C.基于K最近鄰方法得到X*中每個點同其他點之間的距離,從小到大排序后得到最近鄰列表為NNk;
D.根據得到的最近鄰列表NNk,運用SNN相似性方法計算得到數據集內每兩個點之間的相似度基數構成數據集RP;
E.求得相似度數據集RP的平均向量,并計算出該向量與其他所有維度之間的成對余弦值PCos;
F.判斷成對余弦值PCos與閾值G1之間的小大關系,若其大于閾值G1則保留其相關特征屬性,否則剔除其相關特征屬性;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710045966.0/2.html,轉載請聲明來源鉆瓜專利網。





