[發明專利]一種基于機器學習的工業數據質量評測方法及評測系統在審
| 申請號: | 202011498693.3 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112463838A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 樊樹盛;賀本彪;苗維杰 | 申請(專利權)人: | 杭州立思辰安科科技有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/28;G06Q10/06;G06N20/00 |
| 代理公司: | 北京中濟緯天專利代理有限公司 11429 | 代理人: | 張瑩 |
| 地址: | 310051 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 工業 數據 質量 評測 方法 系統 | ||
1.一種基于機器學習的工業數據質量評測方法,其特征在于,包括以下步驟:
S1:對檢測數據進行預處理以排除單個檢測數據點的異常數據;
S2:構建關聯模型,并對預處理后符合要求的檢測數據進行判斷以確定不符合相互關聯的異常檢測數據。
2.根據權利要求1所述的基于機器學習的工業數據質量評測方法,其特征在于,步驟S1包括:
S11:構建歷史單元評估模型;
S12:通過歷史單元數據評估模型構建標準測點屬性數據庫,并確立標準值區間和標準數值變化幅度區間;
S13:獲取當前檢測數據屬性,并與標準測點屬性數據庫比對,在當前檢測數據超出標準區間時判斷為超出值域檢測數據;在當前檢測數據超出變化幅度區間時判斷為幅度波動異常檢測數據。
3.根據權利要求2所述的基于機器學習的工業數據質量評測方法,其特征在于,步驟S11包括:
S111:獲取一定時間內的歷史檢測數據X1、X2、X3......Xi........Xn;
S112:計算所有歷史檢測數據的中位數median(X);
S113:計算每個歷史觀測數據與中位數的絕對偏差值|Xi-median(X)|;
S114:計算絕對偏差值的中位數MAD=median(|Xi-median(X)|);
S115:將每個歷史觀測數據的絕對偏差值除以MAD以得到基于MAD的所有觀測數據的離中心的距離值Xm。
4.根據權利要求3所述的基于機器學習的工業數據質量評測方法,其特征在于,步驟S12包括:
根據Three-Sigma Rule公式Pr(μ-3σ≤Xm≤μ+3σ)≈0.9973確立Xm符合要求的標準值區間和標準數值變化幅度區間;其中,σ代表標準差,μ代表均值;不符合要求的異常數據的Xm取值大于μ+3σ或小于μ-3σ。
5.根據權利要求1所述的基于機器學習的工業數據質量評測方法,其特征在于,步驟S2包括:
S21:根據歷史檢測數據建立關聯模型,并根據關聯模型對歷史檢測數據聚類分組以形成多個分組;
S22:對聚類分組后的結果評估;
S23:根據關聯模型對預處理后符合要求的檢測數據分配至相應的分組內;
S24:確定分配至相應分組內的預處理后符合要求的檢測數據在相應分組內與分組內其它數據之間的相關性,并找出相關性差的異常數據。
6.根據權利要求5所述的基于機器學習的工業數據質量評測方法,其特征在于,步驟S21包括:
S211:獲取歷史檢測數據,并從N個歷史檢測數據中隨機選取K個對象作為初始聚類中心。
S212:分別計算每個檢測數據到各個聚類中心的距離,將每一檢測數據分配到距離最近的聚類中。
S213:所有檢測數據分配完成后,重新計算K個聚類中心。
S214:與前一次計算得到的K個聚類中心比較,如果聚類中心發生變化,轉過程S212,否則轉過程S215。
S215:當質心不發生變換時停止并輸出聚類結果。
7.根據權利要求5所述的基于機器學習的工業數據質量評測方法,其特征在于,步驟S22包括:
S221:采用如下公式確定purity(X,Y)
其中,x=(x1,x2……xk)是聚類的集合。xk表示第k個聚類的集合。y=(y1,y2,…yi)表示需要被聚類的集合,yi表示第i個聚類對象。N表示被聚類集合對象的總數;
S222:根據purity(X,Y)數值范圍對聚類分組后的結果評估。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州立思辰安科科技有限公司,未經杭州立思辰安科科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011498693.3/1.html,轉載請聲明來源鉆瓜專利網。





