[發明專利]監測數據在線清洗的方法和設備有效
| 申請號: | 201811593041.0 | 申請日: | 2018-12-25 |
| 公開(公告)號: | CN109684320B | 公開(公告)日: | 2020-09-15 |
| 發明(設計)人: | 劉書明;吳以朋;吳雪 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 蔣冬梅;龍洪 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 監測 數據 在線 清洗 方法 設備 | ||
本發明公開了一種監測數據在線清洗的方法和設備,其中,所述方法包括:根據歷史監測數據構建參照數據集和參照標準分數z?score序列;獲取在線監測數據,對所述在線監測數據進行清洗操作,所述清洗操作包括如下至少之一:去除所述在線監測數據中的重復數據、根據參照數據集和參照z?score序列對所述在線監測數據中的缺失數據進行估計和填補、根據參照數據集和參照z?score序列對所述在線監測數據中的異常數據進行識別;存儲清洗后的在線監測數據。通過本發明實施例,可有效控制監測數據的數據質量,提升監測數據的可用性。
技術領域
本發明涉及數據處理領域,尤指一種監測數據在線清洗的方法和設備。
背景技術
中國近幾年發展起來的物聯網、互聯網等產業背后是海量數據的支持與先進數據分析技術的發展。然而,這些產業在某些傳統行業(例如,供水、供電行業)的應用及對企業管理模式的影響速度卻沒有這些技術本身發展的那樣迅速,甚至還存在著較大的距離。
在線監測數據反映系統的運行狀況,是開展復雜系統(例如供水管網、電網)智能管理的依據,對各類數據的實時監管能力直接影響到開展系統智能化管理的成敗。然而,多數傳統行業的在線監測管理系統僅僅是傳統意義上的SCADA(Supervisory Control AndData Acquisition,數據采集與監視控制)系統,主要有數據的采集、存儲、展示、報表和曲線查詢等功能。對于監測過程中出現的數據重復、數據缺失以及數據異常等問題,傳統的SCADA系統都不能對其進行處理,直接把原始數據存儲進入數據庫。數據質量的失控對后續的數據分析與應用造成了極大障礙。
近年來,眾多行業已經逐步重視起數據的質量控制,開發了針對圖像數據、保單分紅數據、醫療數據以及風力機組運行數據等數據的清洗方法。但是,相關技術中,大部分只是針對數據重復等單一問題進行清洗,并不能滿足對數據進行全面的處理的需要。
發明內容
為了解決上述技術問題,本發明提供了一種監測數據在線清洗的方法和設備。
為了達到本發明目的,本發明提供了一種監測數據在線清洗的方法,包括:
根據歷史監測數據構建參照數據集和參照標準分數z-score序列;
獲取在線監測數據,對所述在線監測數據進行清洗操作,所述清洗操作包括如下至少之一:去除所述在線監測數據中的重復數據、根據參照數據集和參照z-score序列對所述在線監測數據中的缺失數據進行估計和填補、根據參照數據集和參照z-score序列對所述在線監測數據中的異常數據進行識別;
存儲清洗后的在線監測數據。
可選地,所述根據歷史監測數據構建參照數據集和參照z-score序列,包括:
為所述歷史監測數據添加時間標識屬性,所述時間標識屬性表示監測數據對應于一天中第i個時刻,其中i為整數,范圍是1~g,g為每天的采樣個數;
按照所述時間標識屬性,根據所述歷史監測數據生成g個第一向量vi,所述第一向量vi代表p天中所有第i個時刻的數據,使用每個第一向量中所有非空數據的均值填補相應的第一向量中的空值;p為所述歷史監測數據的天數;
刪除所述第一向量vi中的異常數據,得到第二向量wi,所述第二向量wi中的元素構成參照數據集;
計算所述第二向量wi的均值μi和標準差σi,根據所述均值μi和標準差σi對每個第二向量wi進行z-score標準化操作,選取標準化操作后得到的每個向量中的最后一個值,構成含有g個數據的參照z-score序列rz。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811593041.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





