[發明專利]一種基于核密度估計的異常檢測方法及裝置在審
| 申請號: | 201811219917.5 | 申請日: | 2018-10-19 |
| 公開(公告)號: | CN109359138A | 公開(公告)日: | 2019-02-19 |
| 發明(設計)人: | 段強;李銳;于治樓 | 申請(專利權)人: | 濟南浪潮高新科技投資發展有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 250100 山東省濟南市*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征向量 概率密度函數 核密度估計 密度估計 異常檢測 偏移量 標準化處理 數據處理 預先獲取 概率 預設 | ||
本發明提供了一種基于核密度估計的異常檢測方法及裝置,包括:預先獲取經過數據處理的至少三個特征向量;確定每一個所述特征向量對應的密度估計;根據每一個所述密度估計,確定所述至少三個特征向量的概率密度函數;根據所述概率密度函數,獲取每一個所述特征向量出現的概率;確定每一個所述概率對應的偏移量;對每一個所述偏移量進行標準化處理,獲取對應的標準值;根據每一個所述標準值和預設的閾值,確定每一個所述特征向量是否異常。本方案具有廣泛的適應性。
技術領域
本發明涉及數據檢測技術領域,特別涉及一種基于核密度估計的異常檢測方法及裝置。
背景技術
隨著信息技術的發展,大數據時代已經來臨。在金融、網絡安全和互聯網等領域,通過學習大量歷史數據,利用異常檢測算法能夠區分正常數據與異常數據,從而對于異常問題進行預警。
目前,常用的基于密度異常檢測算法有局部異常因子(Local Outlier Factor,LOF)算法及其變體,如simplified-LOF算法、LDF算法以及LOOP算法等。
但是,這些算法適用于特定數據集合場景來尋找分布稀疏的點,即離群值,因此不具有廣泛的適應性。
發明內容
本發明實施例提供了一種基于核密度估計的異常檢測方法及裝置,具有廣泛的適應性。
第一方面,本發明實施例提供了一種基于核密度估計的異常檢測方法,預先獲取經過數據處理的至少三個特征向量,還包括:
確定每一個所述特征向量對應的密度估計;
根據每一個所述密度估計,確定所述至少三個特征向量的概率密度函數;
根據所述概率密度函數,獲取每一個所述特征向量出現的概率;
確定每一個所述概率對應的偏移量;
對每一個所述偏移量進行標準化處理,獲取對應的標準值;
根據每一個所述標準值和預設的閾值,確定每一個所述特征向量是否異常。
優選地,
所述確定每一個所述特征向量對應的密度估計,包括:
根據下述第一公式,確定每一個所述特征向量對應的密度估計:
其中,Di表征第i個所述特征向量對應的密度估計,k表征k數量個與第i個所述特征向量的近鄰點,Hh(d(i,p))表征給定預設帶寬的核函數,其中,d(i,p)表征第i個所述特征向量與第p個所述特征向量之間的距離。
優選地,
所述核函數,包括:
根據下述第二公式,確定所述核函數:
或,
根據下述第三公式,確定所述核函數:
其中,π表征圓周率,e表征自然常數。
優選地,
所述根據每一個所述密度估計,確定所述至少三個特征向量的概率密度函數,包括:
對各個所述密度估計進行求和,獲得所述至少三個特征向量的概率密度函數;
則,
所述根據所述概率密度函數,獲取每一個所述特征向量出現的概率,包括:
針對每一個所述特征向量,將所述特征向量代入所述概率密度函數中,獲取所述特征向量出現的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于濟南浪潮高新科技投資發展有限公司,未經濟南浪潮高新科技投資發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811219917.5/2.html,轉載請聲明來源鉆瓜專利網。





