[發(fā)明專利]一種基于KL散度和離散化數(shù)據(jù)的異常檢測(cè)算法在審
| 申請(qǐng)?zhí)枺?/td> | 201811266627.6 | 申請(qǐng)日: | 2018-10-29 |
| 公開(公告)號(hào): | CN109460425A | 公開(公告)日: | 2019-03-12 |
| 發(fā)明(設(shè)計(jì))人: | 張衛(wèi)山;張亞飛;郭武武 | 申請(qǐng)(專利權(quán))人: | 中國(guó)石油大學(xué)(華東) |
| 主分類號(hào): | G06F16/2458 | 分類號(hào): | G06F16/2458 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266580 山*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 構(gòu)建 訓(xùn)練階段 概率圖 散度 異常檢測(cè)算法 數(shù)據(jù)模式 異常數(shù)據(jù) 運(yùn)行階段 離散化 算法 方式刪除 假設(shè)檢驗(yàn) 均值數(shù)據(jù) 模式發(fā)生 模式挖掘 判斷數(shù)據(jù) 冗余數(shù)據(jù) 設(shè)備異常 數(shù)據(jù)包含 數(shù)據(jù)狀態(tài) 相似程度 異常概率 坐標(biāo)x軸 大數(shù)據(jù) 坐標(biāo)軸 概率 挖掘 | ||
本發(fā)明提出了一種基于KL散度(Kullback?Leibler divergence)和離散化數(shù)據(jù)的異常檢測(cè)算法,基于大數(shù)據(jù)模式挖掘、以及異常概率計(jì)算。該算法分為訓(xùn)練階段和運(yùn)行階段:訓(xùn)練階段主要通過挖掘數(shù)據(jù)模式,同時(shí)采用假設(shè)檢驗(yàn)方式刪除冗余數(shù)據(jù)模式來構(gòu)建概率坐標(biāo)軸(以提取模式為坐標(biāo)x軸,以模式發(fā)生概率為y軸),并構(gòu)建異常數(shù)據(jù)概率圖和均值概率圖;運(yùn)行階段主要構(gòu)建數(shù)據(jù)模式概率圖和采用KL散度計(jì)算當(dāng)前數(shù)據(jù)與訓(xùn)練階段構(gòu)建的異常數(shù)據(jù)和均值數(shù)據(jù)的相似程度。該算法能夠精準(zhǔn)的確定數(shù)據(jù)狀態(tài)類型,且在數(shù)據(jù)包含長(zhǎng)期規(guī)律時(shí)也能準(zhǔn)確判斷,從而高效準(zhǔn)確的判斷數(shù)據(jù)或設(shè)備異常。
技術(shù)領(lǐng)域
本發(fā)明涉及異常檢測(cè)領(lǐng)域,具體涉及到一種基于KL散度和數(shù)據(jù)模式的異常檢測(cè)方法。
背景技術(shù)
基于KL散度(Kullback–Leibler divergence)和數(shù)據(jù)模式的異常檢測(cè)算法,基于大數(shù)據(jù)模式挖掘、以及異常概率計(jì)算。能夠根據(jù)數(shù)據(jù)模式以及模式概率精準(zhǔn)的確定數(shù)據(jù)狀態(tài)。最接近本發(fā)明的技術(shù)有:
(1)、基于統(tǒng)計(jì)的異常點(diǎn)檢測(cè)算法:該方法通常用戶用某個(gè)統(tǒng)計(jì)分布對(duì)數(shù)據(jù)點(diǎn)進(jìn)行建模,再以假定的模型,根據(jù)點(diǎn)的分布來確定是否異常。這方面比較有代表性的有1967年Mikey,Dunn&Clark提出的基于“均數(shù)漂移”模型的單點(diǎn)診斷量,1970年Gentleman&Wilk 提出的群組診斷量等,然而該方法解釋離群點(diǎn)的意義時(shí)經(jīng)常發(fā)生多義性,且不能考慮多維數(shù)據(jù)。
(2)、基于距離的異常點(diǎn)檢測(cè)算法:基于距離的離群點(diǎn)最早是由Knorr和Ng提出,通常通過計(jì)算絕對(duì)距離(曼哈頓距離)、歐氏距離和馬氏距離。然而該算法對(duì)于高維空間中的大數(shù)據(jù)集,算法的效率都不高。
(3)、基于密度的離群檢測(cè)算法:基于密度的離群檢測(cè)算法由 Breunig等人提出的基于局部離群因子的異常檢測(cè)算法LOF。該算法擯棄了以前所有的異常定義中非此即彼的絕對(duì)異常觀念,但該算法缺乏對(duì)數(shù)據(jù)長(zhǎng)期模式的考慮。
其中,基于距離的異常點(diǎn)檢測(cè)算法對(duì)大數(shù)據(jù)量相對(duì)敏感,在實(shí)際應(yīng)用中隨著數(shù)據(jù)量的增加可能算法無法適用;基于密度的離群檢測(cè)算法缺少對(duì)數(shù)據(jù)長(zhǎng)期模式挖掘和利用。基于統(tǒng)計(jì)的異常點(diǎn)檢測(cè)算法欠缺對(duì)多維數(shù)據(jù)的計(jì)算。同時(shí),基于KL散度和數(shù)據(jù)模式的異常檢測(cè)計(jì)算,現(xiàn)有的技術(shù)都沒有在這方面進(jìn)行考慮與設(shè)計(jì)。
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)中的缺點(diǎn)和不足,本發(fā)明提出了基于KL散度和數(shù)據(jù)模式的異常檢測(cè)方法,根據(jù)數(shù)據(jù)模式以及模式概率精準(zhǔn)的確定數(shù)據(jù)狀態(tài)。
本發(fā)明的技術(shù)方案為:
一種基于KL散度和數(shù)據(jù)模式的異常檢測(cè)方法,數(shù)據(jù)預(yù)處理模塊、模式挖掘模塊、模式壓縮模塊、構(gòu)建模式概率圖坐標(biāo)模塊和概率計(jì)算模塊,包括以下步驟:
步驟(1)、在數(shù)據(jù)預(yù)處理模塊,根據(jù)數(shù)據(jù)輸入對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理操作包括歸一化、補(bǔ)全、離散化等操作;
步驟(2)、在模式挖掘模塊,根據(jù)預(yù)處理數(shù)據(jù)對(duì)數(shù)據(jù)進(jìn)行模式挖掘,對(duì)逐維數(shù)據(jù)挖掘數(shù)據(jù)模式;
步驟(3)、在模式壓縮模塊,根據(jù)獲得數(shù)據(jù)模式采用假設(shè)檢驗(yàn)方法對(duì)逐維數(shù)據(jù)的挖掘模式去除冗余數(shù)據(jù)模式;
步驟(4)、在構(gòu)建模式概率圖坐標(biāo)模塊,在訓(xùn)練階段根據(jù)挖掘數(shù)據(jù)模式逐維構(gòu)建數(shù)據(jù)模式概率圖坐標(biāo)(以提取模式為坐標(biāo)x軸,以模式發(fā)生概率為y軸),同時(shí)逐維構(gòu)建故障模式概率圖和均值模式概率圖。在運(yùn)行階段則根據(jù)挖掘數(shù)據(jù)模式逐維構(gòu)建數(shù)據(jù)模式概率圖;
步驟(5)、在概率計(jì)算模塊,通過KL散度逐維計(jì)算數(shù)據(jù)模式概率圖與故障模式概率圖和均值模式概率圖得到KL1和KL2(可能有多種異常類型所以KL2為多維數(shù)據(jù)),先通過KL1的乘積判斷設(shè)備或數(shù)據(jù)狀態(tài),再通過KL2乘積判斷設(shè)備故障類型。從而判斷異常和異常類型。
本發(fā)明的有益效果:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)石油大學(xué)(華東),未經(jīng)中國(guó)石油大學(xué)(華東)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811266627.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法
- 一種數(shù)據(jù)挖掘訓(xùn)練模型的生成方法
- 一種基于機(jī)器人仿真與物理采樣結(jié)合的深度學(xué)習(xí)訓(xùn)練方法
- 模型訓(xùn)練方法、圖像特征提取方法、裝置及電子設(shè)備
- 年齡預(yù)估模型訓(xùn)練方法、面部圖像識(shí)別方法及裝置
- 一種基于金字塔輸入增益的卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法
- 分類模型的訓(xùn)練方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 人臉特征點(diǎn)模型的訓(xùn)練方法、裝置及終端設(shè)備
- 一種圖像生成方法、裝置及設(shè)備
- 一種模型訓(xùn)練方法、裝置、設(shè)備、系統(tǒng)及存儲(chǔ)介質(zhì)
- 一種基于車聯(lián)網(wǎng)大數(shù)據(jù)的車輛能耗評(píng)價(jià)方法
- 用于預(yù)測(cè)因干擾而產(chǎn)生的注意力焦點(diǎn)概率軌跡的視頻位置的系統(tǒng)和方法
- 一種基于點(diǎn)云的室內(nèi)動(dòng)態(tài)場(chǎng)景SLAM方法及系統(tǒng)
- 用于跟蹤圖像序列中的多個(gè)對(duì)象的方法和系統(tǒng)
- 基于概率圖模型的身份盜用檢測(cè)方法
- 一種基于概率圖的混合概率逆深度估計(jì)方法
- 一種采用概率圖梯度損失函數(shù)的圖像語(yǔ)義分割方法
- 基于數(shù)據(jù)圖的概率存儲(chǔ)數(shù)據(jù)
- 文本區(qū)域檢測(cè)方法、裝置、電子設(shè)備和計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種基于正態(tài)分布概率圖的警務(wù)多無人機(jī)目標(biāo)搜索方法
- 病理切片圖像分割方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





