[發明專利]一種時序數據集的預處理方法及其應用在審
| 申請號: | 202111048055.6 | 申請日: | 2021-09-08 |
| 公開(公告)號: | CN113947112A | 公開(公告)日: | 2022-01-18 |
| 發明(設計)人: | 王曉玲;王若楠;李松敏;佟大威;喬天誠;鄭雅致;陳一天 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 潘俊達 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 時序 數據 預處理 方法 及其 應用 | ||
本發明提供了一種時序數據集的預處理方法及其應用,包括以下步驟:S1、獲取時序變化的原始數據集;S2、對步驟S1中得到的原始數據集進行小波分解,得到低頻數組和高頻數組;S3:采用K?means算法對步驟S2中得到的高頻數組中的異常數值進行識別及處理,得到處理后的數據集;完成對時序數據集的預處理。相比于現有技術,本預處理方法可有效提高原始數據集的準確度,降低異常數據對后續分析的影響,解決了目前時序監測過程中數據存在連續異常和缺失而降低監測數據準確度的問題。
技術領域
本發明涉及環境工程氣體污染研究領域,具體涉及一種時序數據集的預處理方法及其應用。
背景技術
氣態污染物隨時間動態變化,沒有特定的規律性和穩定性,氣體監測站在數據采集過程中常常受到環境變化和儀器性能等因素的影響,導致監測數據出現異常,使監測結果呈現出非平穩、非線性隨時間變化的特征。在后續的數據分析中,異常數據易對模型的精度造成嚴重影響,對氣體污染特征分析與研究帶來了新的挑戰。
對于異常數據,常見的處理方式是基于統計、距離、密度或聚類等方法識別離散點,如其中一種方法為在水質預測中使用線性插值法對異常值進行替換,使用Savitzky-Golay濾波器法進行降噪處理,經處理的數據集成為連續且平滑的時間序列;其中另一種方法為通過隨機森林和完全集合經驗模態分解法對感應傳輸溫鹽深測量儀數據進行預處理,將復雜的時間序列根據其變化特征細化為高低頻基函數,進而對高頻異常部分識別與去除,處理后信噪比提升約9dB,儀器測量準確性提升1.3倍。可見加強監測數據特征辨識和異常值處理,是氣體污染研究的基礎和前提,然而傳統的數據預處理方法普遍將各個數據作為獨立的對象看待,缺乏對數據時序關聯性的分析和學習,即選用簡單的線性插值或聚類法,直接對缺失數據進行補全或對異常數據進行替換,使得數據集預處理效果較差。并且,傳統數據預處理方法具有較強的針對性,對后續分析任務的類型限制較多。
因此,一種盡可能準確地補全或還原序列中的缺失或異常數據的、更加通用的數據預處理方法成為當前建立氣體監測數據庫的關鍵問題。有鑒于此,本發明提供一種解決上述問題的技術方案。
發明內容
本發明的一目的在于:提供一種時序數據集的預處理方法,以解決目前時序監測過程中數據存在連續異常和缺失而降低監測數據準確度的問題,通過本發明的預處理方法,極大可能的補全或還原了序列中的缺失或異常數據,為具有波動性、時序性和復雜性的氣體監測數據提供方法指導。
為了實現上述目的,本發明采用以下技術方案:
一種時序數據集的預處理方法,包括以下步驟:
S1、獲取時序變化的原始數據集;
S2、對步驟S1中得到的原始數據集進行小波分解,得到低頻數組和高頻數組;
S3:采用K-means算法對步驟S2中得到的高頻數組中的異常數值進行識別及處理,得到處理后的數據集;完成對時序數據集的預處理。
優選的,步驟S1中,所述原始數據集中至少包括2個因素變量。
優選的,步驟S2中,所述小波分解的函數包括haar小波、dbN小波、symN小波、coifN小波、biorN小波中的至少一種,N為分解的層數,N≥2。
優選的,dbN小波的函數公式為:
其中:a>0,為伸縮因子;v為平移因子;R為實數積分域;f(t)為分析信號函數;Ψa,v(t)稱為基本小波。
優選的,所述高頻數組至少有3組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111048055.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





