[發明專利]一種稀疏數據異常檢測方法及裝置有效
| 申請號: | 201710508648.3 | 申請日: | 2017-06-28 |
| 公開(公告)號: | CN107391443B | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 馬帥;朱孟笑;張暉;懷進鵬 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/16 | 分類號: | G06F17/16;G06F40/30;G06K9/62 |
| 代理公司: | 北京中創陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 稀疏 數據 異常 檢測 方法 裝置 | ||
本發明公開了一種稀疏數據異常檢測方法及裝置,所述方法包括:對不同類型的原始數據進行特征處理,以將所述不同類型的原始數據轉換成統一格式的稀疏數據;采用因子分解機對所述稀疏數據進行建模,得到非線性流形模型;根據所述非線性流形模型,計算數據對象的異常值得分;根據所述數據對象的異常值得分,判定所述數據對象是否為異常數據。
技術領域
本發明涉及異常檢測技術領域,尤其涉及一種基于因子分解機的稀疏數據異常檢測方法及裝置。
背景技術
異常檢測主要基于Kawkins對異常的定義:異常是遠離其他觀測數據進而懷疑為不同機制產生的數據。高效準確地檢測異常對于入侵檢測、欺詐檢測以及故障檢測等領域具有重要意義。異常檢測已經得到了廣泛地研究,大多數方法都是針對傳統的非稀疏性的數據。但是實際場景中,很多數據都呈現稀疏特性:(1)短文本數據:近年來,隨著社交媒體的發展,短文本數據的分析挖掘得到越來越多的重視,由于單個文本中的單詞數量有限,推斷文本的異常特性變得極具挑戰。(2)擁有“大域”屬性的分類型數據:此類數據中每個屬性包含的不同值數量巨大,可通過二值化過程轉換成極度稀疏的數據,因此該類數據是一種間接的稀疏數據。不同屬性值數量巨大,數據集中的屬性值出現次數有限,難以形成可用的模式,因此如何挖掘屬性值之間隱含的關系對推斷數據對象的異常特性具有重要意義。例如,電影信息包含三個屬性:男演員、女演員以及電影類型。如果男演員A和女演員B經常演同一類型的電影,雖然A和B從未合作過,但后來一次A和B的合作不應該看作是異常,因為A和B之間存在某種隱含的關系。因此有效地分析數據中隱含的關系是解決稀疏數據異常檢測的關鍵。此外,此類稀疏數據往往伴隨著高維特性,少量的數據對象即可形成較大的數據集,因此如何高效地尋找數據集中的異常,降低方法的時間復雜度對處理大規模數據具有重要意義。最后,由于現實中數據集往往包含多種數據類型,例如分類型數據、數值型數據、文本型數據等,因此如何同時處理多種類型的數據,提高方法的通用性是亟待解決的問題。
目前的異常檢測方法具有如下幾種:基于距離的異常檢測方法、基于模式的異常檢測方法、基于概率生成模型的異常檢測方法、基于矩陣分解的異常檢測方法等。
當前的異常檢測方法處理稀疏數據存在一些問題,這主要體現在三個方面。第一,稀疏數據中大部分值都是0,單個數據對象中只有有限非0元,單純使用有限的非0元推斷數據對象的異常特性極具挑戰,需要結合屬性值之間的隱含關系。傳統的很多方法如基于距離的方法、基于模式的方法等都無法獲取屬性值之間的隱含關系。第二,現實中的數據集往往包含多種數據類型,例如分類型數據、數值型數據、文本數據等,而現有的方法一般只針對某一種數據進行異常檢測,不具有通用性。第三,傳統的很多異常檢測方法(如基于距離的方法)的時間復雜度過高,無法適用于大規模數據。
發明內容
為解決上述技術問題,本發明實施例提供了一種稀疏數據異常檢測方法及裝置。
本發明實施例提供的稀疏數據異常檢測方法,包括:
對不同類型的原始數據進行特征處理,以將所述不同類型的原始數據轉換成統一格式的稀疏數據;
采用因子分解機對所述稀疏數據進行建模,得到非線性流形模型;
根據所述非線性流形模型,計算數據對象的異常值得分;
根據所述數據對象的異常值得分,判定所述數據對象是否為異常數據。
本發明實施例中,所述對不同類型的原始數據進行特征處理,以將所述不同類型的原始數據轉換成統一格式的稀疏數據,包括:
分別對分類型數據、短文本數據以及數值型數據進行不同的特征處理,得到n行d列的數據集其中
本發明實施例中,所述采用因子分解機對所述稀疏數據進行建模,得到非線性流形模型,包括:
采用因子分解機對所述數據集進行建模,使所述數據集位于非線性流形上,得到的非線性流形模型為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710508648.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





