[發明專利]一種基于雙向抽樣組合的大規模數據異常識別方法有效
| 申請號: | 201410535911.4 | 申請日: | 2014-10-13 |
| 公開(公告)號: | CN104462184B | 公開(公告)日: | 2018-04-10 |
| 發明(設計)人: | 張玉超;鄧波;彭甫陽;李海龍 | 申請(專利權)人: | 北京系統工程研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安博達知識產權代理有限公司11271 | 代理人: | 徐國文 |
| 地址: | 100101 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 雙向 抽樣 組合 大規模 數據 異常 識別 方法 | ||
1.一種基于雙向抽樣組合的大規模數據異常識別方法,其特征在于:設樣本數據集D中樣本點數量為n,屬性個數為m,所述方法包括以下步驟:
步驟1:對樣本數據集D進行橫向抽樣,得到子樣本數據集Dr;
步驟2:對子樣本數據集Dr進行縱向抽樣,得到條帶數據集Drc;
步驟3:對條帶數據集Drc進行異常程度打分;
步驟4:重復執行上述步驟1-3;
步驟5:組合異常程度分數值,并計算異常程度分數的平均值;
所述步驟1中,從樣本數據集D的n個樣本點中,以橫向抽樣率λ,按照隨機方式抽取nλ個樣本點,得到子樣本數據集Dr,即可完成對樣本數據集D的橫向抽樣;
對樣本數據集D進行橫向抽樣時,橫向抽樣率λ取0.1;
所述步驟2中,從子樣本數據集Dr的m個屬性中,以縱向抽樣率按照隨機方式抽取個屬性,得到條帶數據集Drc,即可完成對子樣本數據集Dr的縱向抽樣;
對子樣本數據集Dr進行縱向抽樣時,縱向抽樣率取0.1;
所述步驟2中,經過縱向抽樣所得到的條帶數據集Drc的樣本點數量為nλ,即0.1n,屬性個數為即0.1m;
所述步驟3中,利用基于密度的異常識別方法對條帶數據集Drc進行異常程度打分,打分得到的異常程度分數值按照異常程度降低而遞減;
基于密度的異常識別方法為基于密度的LOF方法;
所述步驟4中,重復執行上述步驟1-3共t次,滿足即t≥100,保證覆蓋完整的樣本數據集D;
所述步驟5中,針對每個樣本點,取t次的異常程度分數值,計算其平均值作為該樣本點最終的異常程度得分值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京系統工程研究所,未經北京系統工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410535911.4/1.html,轉載請聲明來源鉆瓜專利網。





