[發(fā)明專利]一種基于距離的數(shù)值分布異常檢測方法及檢測系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011536865.1 | 申請日: | 2020-12-23 |
| 公開(公告)號: | CN112465073B | 公開(公告)日: | 2023-08-08 |
| 發(fā)明(設計)人: | 殷錢安;陶景龍;梁淑云;劉勝;馬影;王啟凡;魏國富;余賢喆;周曉勇 | 申請(專利權)人: | 上海觀安信息技術股份有限公司 |
| 主分類號: | G06F18/2433 | 分類號: | G06F18/2433;G06F18/2413;G06F21/62;G06F11/34 |
| 代理公司: | 合肥市浩智運專利代理事務所(普通合伙) 34124 | 代理人: | 張景云 |
| 地址: | 200333 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 距離 數(shù)值 分布 異常 檢測 方法 系統(tǒng) | ||
本發(fā)明提供一種基于距離的數(shù)值分布異常檢測方法,屬于計算機數(shù)據(jù)安全技術領域。對于數(shù)據(jù)組而言,剔重前計算得到的距離為整體數(shù)組的每個數(shù)據(jù)對象的分布情況,體現(xiàn)數(shù)據(jù)數(shù)值分布特點,剔重后計算得到的距離體現(xiàn)數(shù)據(jù)數(shù)值分布的廣度。本發(fā)明通過分別計算剔重前、剔重后的數(shù)值距離,將數(shù)組中數(shù)值整體分布與數(shù)組中數(shù)值的集中程度結合,既可以檢測低頻異常值或者孤立值,同時也可以檢測常見的高頻行為,可以降低常見單維度異常檢測算法的誤報。
技術領域
本發(fā)明涉及計算機數(shù)據(jù)安全技術領域,具體來說是一種基于距離的數(shù)值分布異常檢測方法及檢測系統(tǒng)。
背景技術
在對數(shù)據(jù)(例如,指標)進行監(jiān)控的傳統(tǒng)監(jiān)控系統(tǒng)中,工程師或專家可以配置一些指標的異常閾值,當數(shù)據(jù)超出閾值時系統(tǒng)就會觸發(fā)警報。但是,如果某個指標沒有被監(jiān)控覆蓋到(不管是系統(tǒng)還是人),那么它表現(xiàn)異常后就可能沒有人會知道,這可能造成不可預期的問題或故障。另外,許多問題不是靠人工設定閾值就能夠解決的,特別是在對超大規(guī)模的性能指標進行監(jiān)控時,很難依靠人工配置完成監(jiān)控。隨著應用需求及場景變化,數(shù)據(jù)異常檢測方法也需要不斷更新迭代。
現(xiàn)有技術中常見異常檢測方法,例如統(tǒng)計方法、基于鄰近度的離群點檢測、基于密度的離群點檢測、基于聚類的技術等,譬如一些基于統(tǒng)計方法的單維度檢測算法主要用于極值檢測,沒有考慮數(shù)組中數(shù)值分布異常,對于一些低頻異常數(shù)值識別能力較差。基于聚類的異常檢測、基于密度的離群點檢測等通常應用于多維度檢測,對于單維異常數(shù)據(jù)檢測能力往往效果不佳。
如申請?zhí)枮镃N202010465783.6公開的一種對等組中異常點的檢測方法及裝置,該方法包括:1)、獲取對應于待檢測用戶的原始數(shù)據(jù),將所述原始數(shù)據(jù)作為樣本,其中,所述原始數(shù)據(jù)包括:用戶的設備屬性信息、風控數(shù)據(jù)、業(yè)務數(shù)據(jù);2)、使用加權概率分布模型確定出聚類中心點個數(shù),并基于所述中心點對樣本進行若干次K-means聚類處理;3)根據(jù)各次聚類處理后的SSE值的最小值確定出目標k值;4)、將目標k值對應的聚類算法聚類后得到的簇作為對等組,針對每一個對等組,根據(jù)所述對等組中的樣本點與對等組中其他樣本點之間的比值獲取每一個樣本點的偏離度,根據(jù)所述偏離度獲取異常點。應用本發(fā)明實施例,提高了安全性能。通過對等組中的樣本點與其他樣本點的偏離度來獲取異常點,但是依然存在對單維度數(shù)據(jù)檢測不準的問題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術問題在于提供一種同時滿足高頻和低頻或孤立值的數(shù)據(jù)異常檢測方法。
本發(fā)明通過以下技術手段實現(xiàn)解決上述技術問題的:
一種基于距離的數(shù)值分布異常檢測方法,包括以下步驟:
S01.數(shù)據(jù)提取,抽取指定時間周期內(nèi)的標準化的業(yè)務數(shù)據(jù)表作為分析數(shù)據(jù);
S02.數(shù)據(jù)統(tǒng)計,梳理分析數(shù)據(jù)的業(yè)務對象,根據(jù)業(yè)務對象對指定字段進行聚合分析,得到每個業(yè)務對象的多種操作行為的數(shù)量指標,整體指標值構成數(shù)組array;
S03.剔重數(shù)組距離計算,對步驟S02得到的數(shù)組array,進行數(shù)值剔重,得到新數(shù)組arrayl;
利用曼哈頓距離計算array1中每個數(shù)值與其他數(shù)值之間的距離Si,對所有數(shù)值距離Si進行求和,得到數(shù)組array1總距離和S;
S04.未剔重數(shù)組距離計算
對步驟S02得到的數(shù)組array,利用曼哈頓距離計算array中每個數(shù)值與其他數(shù)值之間的距離dij;將計算得到dij,按照不同數(shù)值對象進行求和,得到數(shù)值array每個唯一數(shù)值對象距離總和,即Di,此處第i個值與S02中第i個值一致;
對所有數(shù)值距離Di進行求和,得到數(shù)組array距離總和D;
S05.數(shù)值權重計算
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海觀安信息技術股份有限公司,未經(jīng)上海觀安信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011536865.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





