[發(fā)明專利]一種稀疏數(shù)據(jù)異常檢測(cè)方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710508648.3 | 申請(qǐng)日: | 2017-06-28 |
| 公開(公告)號(hào): | CN107391443B | 公開(公告)日: | 2020-12-25 |
| 發(fā)明(設(shè)計(jì))人: | 馬帥;朱孟笑;張暉;懷進(jìn)鵬 | 申請(qǐng)(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號(hào): | G06F17/16 | 分類號(hào): | G06F17/16;G06F40/30;G06K9/62 |
| 代理公司: | 北京中創(chuàng)陽光知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 稀疏 數(shù)據(jù) 異常 檢測(cè) 方法 裝置 | ||
1.一種稀疏數(shù)據(jù)異常檢測(cè)方法,其特征在于,所述方法包括:
對(duì)不同類型的原始數(shù)據(jù)進(jìn)行特征處理,以將所述不同類型的原始數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式的稀疏數(shù)據(jù);
采用因子分解機(jī)對(duì)所述稀疏數(shù)據(jù)進(jìn)行建模,得到非線性流形模型;
根據(jù)所述非線性流形模型,計(jì)算數(shù)據(jù)對(duì)象的異常值得分;
根據(jù)所述數(shù)據(jù)對(duì)象的異常值得分,判定所述數(shù)據(jù)對(duì)象是否為異常數(shù)據(jù);
所述對(duì)不同類型的原始數(shù)據(jù)進(jìn)行特征處理,以將所述不同類型的原始數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式的稀疏數(shù)據(jù),包括:
分別對(duì)分類型數(shù)據(jù)、短文本數(shù)據(jù)以及數(shù)值型數(shù)據(jù)進(jìn)行不同的特征處理,得到n行d列的數(shù)據(jù)集其中zij表示第i行第j列的數(shù)據(jù);
所述采用因子分解機(jī)對(duì)所述稀疏數(shù)據(jù)進(jìn)行建模,得到非線性流形模型,包括:
采用因子分解機(jī)對(duì)所述數(shù)據(jù)集進(jìn)行建模,使所述數(shù)據(jù)集位于非線性流形上,得到的非線性流形模型為:
其中,p是1...n之間的任意值,g是全局參數(shù);b1,...,bd是特定屬性參數(shù);是屬性值z(mì)pi和zpj的隱含關(guān)系權(quán)重,其中是一個(gè)k維向量;
所述根據(jù)所述非線性流形模型,計(jì)算數(shù)據(jù)對(duì)象的異常值得分,包括
根據(jù)所述非線性流形模型,計(jì)算數(shù)據(jù)對(duì)象的異常值得分為:
其中,對(duì)于文本數(shù)據(jù),LQ(Zp)等于所有文本的平均單詞個(gè)數(shù)除以該文本的單詞個(gè)數(shù);而對(duì)于分類型數(shù)據(jù)和數(shù)值型數(shù)據(jù),LQ(Zp)等于1。
2.根據(jù)權(quán)利要求1所述的稀疏數(shù)據(jù)異常檢測(cè)方法,其特征在于,所述分別對(duì)分類型數(shù)據(jù)、短文本數(shù)據(jù)以及數(shù)值型數(shù)據(jù)進(jìn)行不同的特征處理,包括:
針對(duì)所述分類型數(shù)據(jù),對(duì)每個(gè)分類型屬性中的每個(gè)值創(chuàng)建一個(gè)二值屬性,所述二值屬性的值是0或1;其中,如果一個(gè)數(shù)據(jù)對(duì)象中包含所述二值屬性,則該數(shù)據(jù)對(duì)象對(duì)應(yīng)于所述二值屬性上的值為1,否則為0;
針對(duì)所述短文本數(shù)據(jù),為每個(gè)不同的關(guān)鍵詞創(chuàng)建一個(gè)屬性;其中,如果一個(gè)文本包含r個(gè)關(guān)鍵詞,則在每個(gè)關(guān)鍵詞屬性上的值為在其他詞屬性上的值為0;
針對(duì)所述數(shù)值型數(shù)據(jù),對(duì)原始數(shù)據(jù)集中每個(gè)屬性i執(zhí)行以下操作:計(jì)算平均值ui和標(biāo)準(zhǔn)差σi,將范圍(ui-σi,ui+σi)平分成Φ個(gè)區(qū)間;為每個(gè)區(qū)間創(chuàng)建一個(gè)屬性,如果一個(gè)數(shù)據(jù)對(duì)象第i個(gè)屬性的值位于其中的一個(gè)區(qū)間,則該區(qū)間的屬性值為1,否則為0;如果一個(gè)數(shù)據(jù)對(duì)象第i個(gè)屬性的值xi小于ui-σi,則創(chuàng)建一個(gè)屬性,其屬性值為|xi-(ui-σi)|/σi;如果xi大于ui+σi,則創(chuàng)建一個(gè)屬性,其屬性值為|xi-(ui+σi)|/σi;其中,Φ的值根據(jù)原始數(shù)據(jù)集的大小設(shè)定。
3.根據(jù)權(quán)利要求1所述的稀疏數(shù)據(jù)異常檢測(cè)方法,其特征在于,所述非線性流形模型中的參數(shù)g,bi,的值通過最小化所有數(shù)據(jù)對(duì)象的均方誤差得到,其中,最小化對(duì)應(yīng)的優(yōu)化目標(biāo)函數(shù)為:
其中,是正則化項(xiàng),Θ是包含參數(shù)g,bi,vij的參數(shù)空間,θ是參數(shù)空間中任意一個(gè)參數(shù),λθ是參數(shù)θ的正則化參數(shù)值,λg表示針對(duì)參數(shù)g的正則化參數(shù)值,表示針對(duì)參數(shù)bi的正則化參數(shù)值,表示針對(duì)參數(shù)vij的正則化參數(shù)值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710508648.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 異常檢測(cè)裝置、異常檢測(cè)方法
- 異常檢測(cè)方法、異常檢測(cè)裝置及異常檢測(cè)系統(tǒng)
- 異常檢測(cè)裝置、異常檢測(cè)方法以及異常檢測(cè)系統(tǒng)
- 異常檢測(cè)裝置、異常檢測(cè)方法以及異常檢測(cè)系統(tǒng)
- 異常檢測(cè)裝置、異常檢測(cè)方法及異常檢測(cè)系統(tǒng)
- 異常探測(cè)裝置、異常探測(cè)方法以及計(jì)算機(jī)可讀取的存儲(chǔ)介質(zhì)
- 異常檢測(cè)裝置、異常檢測(cè)方法及記錄介質(zhì)
- 異常檢測(cè)裝置、異常檢測(cè)系統(tǒng)以及異常檢測(cè)方法
- 異常檢測(cè)系統(tǒng)、異常檢測(cè)裝置和異常檢測(cè)方法
- 異常檢測(cè)方法、異常檢測(cè)裝置及異常檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)





