[發(fā)明專利]機器學(xué)習(xí)多維度多模型融合河道水質(zhì)異常檢測方法及裝置在審
| 申請?zhí)枺?/td> | 201910943586.8 | 申請日: | 2019-09-30 |
| 公開(公告)號: | CN110969556A | 公開(公告)日: | 2020-04-07 |
| 發(fā)明(設(shè)計)人: | 張鵬飛 | 申請(專利權(quán))人: | 上海儀電(集團)有限公司中央研究院 |
| 主分類號: | G06Q50/26 | 分類號: | G06Q50/26 |
| 代理公司: | 上海容慧專利代理事務(wù)所(普通合伙) 31287 | 代理人: | 于曉菁 |
| 地址: | 200233 上*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 機器 學(xué)習(xí) 多維 模型 融合 河道 水質(zhì) 異常 檢測 方法 裝置 | ||
1.一種機器學(xué)習(xí)多維度多模型融合河道水質(zhì)異常檢測方法,其特征在于,包括如下步驟:
S1.對數(shù)據(jù)進行維度拆分,進行缺失值檢查和設(shè)備異常值檢查;
S2.針對統(tǒng)計分布進行異常建模;
S3.針對各維度進行統(tǒng)計異常打分;
S4.針對各維度進行時序建模異常打分;
S5.針對每個維度統(tǒng)計與時序異常,形成融合判定;
S6.綜合各維度融合判定,重復(fù)步驟S5直至形成數(shù)據(jù)點異常判定;
在上述步驟中,對于統(tǒng)計分布異常,首先假設(shè)正常的數(shù)據(jù)點會出現(xiàn)在隨機模型發(fā)生概率高的區(qū)域,而如果一個數(shù)據(jù)點出現(xiàn)在了一個隨機模型發(fā)生概率低的區(qū)域則認(rèn)為是異常點。
2.如權(quán)利要求1所述機器學(xué)習(xí)多維度多模型融合河道水質(zhì)異常檢測方法,其特征在于,在步驟S2和步驟S3中,使用IForest、PCA、HBOS、KNN四種異常檢測技術(shù)對河道水質(zhì)監(jiān)測數(shù)據(jù)進行統(tǒng)計分布的異常建模:進行多次抽樣,并對四種算法進行單獨建模,完成不同的異常打分操作;對四種算法模型進行結(jié)果碰撞,對每個時間點所有的異常打分進行疊加,當(dāng)超過閾值時,這個時間點判定為異常點;形成一個由多模型疊加共同進行統(tǒng)計分布的異常檢測算法。
3.如權(quán)利要求2所述機器學(xué)習(xí)多維度多模型融合河道水質(zhì)異常檢測方法,其特征在于,在步驟S2和步驟S3中:
IForest異常檢測的步驟如下:
a.從訓(xùn)練數(shù)據(jù)中隨機選擇m個樣本點作為subsample,放入樹的根節(jié)點;
b.隨機指定一個維度,在當(dāng)前節(jié)點數(shù)據(jù)中隨機產(chǎn)生一個切割點p,切割點產(chǎn)生于當(dāng)前節(jié)點數(shù)據(jù)中指定維度的最大值和最小值之間;
c.以此切割點生成了一個超平面,將當(dāng)前節(jié)點數(shù)據(jù)空間劃分為2個子空間:把指定維度里小于p的數(shù)據(jù)放在當(dāng)前節(jié)點的左孩子,把大于等于p的數(shù)據(jù)放在當(dāng)前節(jié)點的右孩子;
d.在孩子節(jié)點中遞歸步驟b和c,不斷構(gòu)造新的孩子節(jié)點,直到孩子節(jié)點中只有一個數(shù)據(jù)或孩子節(jié)點已到達(dá)限定高度;
e.獲得t個子樹之后,對于一個訓(xùn)練數(shù)據(jù)x,令其遍歷每一棵子樹,然后計算x最終落在每棵樹第幾層,得出x在每棵樹的高度平均值,即為APLt;
f.獲得每個測試數(shù)據(jù)的APL后,設(shè)置一個閾值,APL低于此閾值的測試數(shù)據(jù)即為異常;
PCA異常檢測的步驟如下:
a.對數(shù)據(jù)進行中心化和歸一化處理;
b.進行PCA數(shù)據(jù)降維;
c.對于某一個特征向量ej,計算數(shù)據(jù)樣本xi在該方向上的偏離程度dij,計算公式如下:
d.將樣本在所有方向上的偏離程度加起來,得到一個綜合的異常得分:
e.如果得分大于閾值則判斷為異常;
HBOS異常檢測的步驟如下:
a.對每個特征維度進行動態(tài)的區(qū)間劃分,將所有的值進行排序,連續(xù)的N/k個值劃分在一個組,其中N是總的樣本個數(shù),K是區(qū)間個數(shù),每個區(qū)間段面積為1,寬度越高,則高度越低,高度代表密度;
b.高度標(biāo)準(zhǔn)化。每個區(qū)間的高度進行標(biāo)準(zhǔn)化,使得最大的高度為1;
c.計算各個樣本點出現(xiàn)的概率,計算公式如下:
其中p表示數(shù)據(jù)點,histi(p)表示數(shù)據(jù)點p在第i個特征上其所在區(qū)間的高度,d表示特征的個數(shù);
KNN異常檢測的步驟如下:
a.對每一個數(shù)據(jù)點x,計算x與x的第K近的數(shù)據(jù)點的距離dk(x);
b.將所有的數(shù)據(jù)點按照dk(x)進行排序;
c.異常是那些有著最大的dk(x)的數(shù)據(jù)點,這些數(shù)據(jù)點有著更加稀疏的近鄰;
d.將dk(x)排在前n的數(shù)據(jù)點認(rèn)為是異常點。
4.如權(quán)利要求1所述機器學(xué)習(xí)多維度多模型融合河道水質(zhì)異常檢測方法,其特征在于,在步驟S4中,對時間序列數(shù)據(jù)進行模型建立:
y(t)=g(t)+s(t)+εt
其中,g(t)是趨勢項,s(t)是周期項,εt是誤差項并且服從正態(tài)分布,在對這幾項進行分解及擬合之后,得到一個對于不同時間點的連續(xù)的置信區(qū)間,對于超出置信區(qū)間的所有時間點,模型判定為時間序列分布的異常值,并根據(jù)距離進行異常打分。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海儀電(集團)有限公司中央研究院,未經(jīng)上海儀電(集團)有限公司中央研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910943586.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q50-00 專門適用于特定經(jīng)營部門的系統(tǒng)或方法,例如公用事業(yè)或旅游
G06Q50-02 .農(nóng)業(yè);漁業(yè);礦業(yè)
G06Q50-04 .制造業(yè)
G06Q50-06 .電力、天然氣或水供應(yīng)
G06Q50-08 .建筑
G06Q50-10 .服務(wù)
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





