[發(fā)明專利]一種基于機器學習的海量數(shù)據(jù)中檢測異常值的方法有效
| 申請?zhí)枺?/td> | 201710913196.7 | 申請日: | 2017-09-29 |
| 公開(公告)號: | CN107844798B | 公開(公告)日: | 2021-05-14 |
| 發(fā)明(設(shè)計)人: | 裘煒毅;李明敏 | 申請(專利權(quán))人: | 上海元卓信息科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00;G06N20/20;G06N5/00;G06N7/00;G06N3/08 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 翁若瑩;柏子雵 |
| 地址: | 200120 上海市浦東新區(qū)中國(上海)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 機器 學習 海量 數(shù)據(jù) 檢測 異常 方法 | ||
1.一種基于機器學習的海量數(shù)據(jù)中檢測異常值的方法,其特征在于,包括以下步驟:
步驟1、獲取數(shù)據(jù)集,確定數(shù)據(jù)集中的數(shù)據(jù)類型,并對數(shù)據(jù)集進行回歸分析,數(shù)據(jù)集包含三個字段,分別是taz、timeperiod、num,其中taz、num為數(shù)值型數(shù)據(jù),timeperiod為時間日期型數(shù)據(jù),根據(jù)不同的數(shù)據(jù)類型和回歸分析的特性,選擇合適的機器學習器;
所述選擇合適的機器學習器包括以下步驟:
步驟1.1、考慮數(shù)據(jù)集中是否有缺失值和數(shù)據(jù)集大小,基于加法模型計算數(shù)據(jù)集的機器學習器適應(yīng)性得分式中,d1為是否有缺失值;d2為變量數(shù)量,即列數(shù);d3為記錄數(shù)量,即行數(shù);
步驟1.2、根據(jù)機器學習器適應(yīng)性得分score選擇相應(yīng)的機器學習器;
步驟2、將整個數(shù)據(jù)集輸入機器學習器中進行簡單訓練,使機器學習器盡可能多的學習數(shù)據(jù)集中普遍特征的同時,盡可能少的學習數(shù)據(jù)個案中的非普遍特征,其中:簡單訓練包括以下步驟:
步驟2.1、在輸入的數(shù)據(jù)集上構(gòu)建特征,隨后將構(gòu)建完成的特征規(guī)范化,對timeperiod字段根據(jù)年、月、日、時、分、秒進行細化特征提取,同時對時間序列按照時間先后進行排序;
步驟2.2、設(shè)定機器學習器的參數(shù);
步驟2.3、將特征輸入到機器學習器,訓練機器學習器至偏欠擬合的狀態(tài)以減少對非普遍特征的學習,得到一個訓練好的弱學習器;
步驟3、使用訓練好的弱學習器對數(shù)據(jù)集中的所有個案進行預測,得到每個個案的預測值;
步驟4、將所有個案的預測值與真實值進行比較,設(shè)置容差大小,如果個案的真實值與預測值的差異大于容差,則認定為異常值,如果個案的真實值與預測值的差異小于容差,則認定為正常值;
步驟5、輸出去除異常值之后的數(shù)據(jù)集。
2.如權(quán)利要求1所述的一種基于機器學習的海量數(shù)據(jù)中檢測異常值的方法,其特征在于,在所述步驟2.1中采用標準化方法將特征規(guī)范化,將原始數(shù)據(jù)集歸一化為均值為0、方差為1的數(shù)據(jù)集。
3.如權(quán)利要求2所述的一種基于機器學習的海量數(shù)據(jù)中檢測異常值的方法,其特征在于,利用標準化方法將特征規(guī)范化包括以下步驟:
步驟2.2.1、設(shè)輸入的數(shù)據(jù)集上構(gòu)建的特征為v1,v2,…,vn,計算特征v1,v2,…,vn的均值μ和方差p;
步驟2.2.2、第i特征vi規(guī)范化為vi',
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海元卓信息科技有限公司,未經(jīng)上海元卓信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710913196.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 一種數(shù)據(jù)庫海量數(shù)據(jù)比對的方法
- 基于云計算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實現(xiàn)海量數(shù)據(jù)準實時全量統(tǒng)計的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲方法





