[發明專利]一種基于變窗口模式識別的時間序列數據處理方法有效
| 申請號: | 202011402843.6 | 申請日: | 2020-12-02 |
| 公開(公告)號: | CN112632047B | 公開(公告)日: | 2023-08-01 |
| 發明(設計)人: | 翁存興;曾凡春;田宏哲;劉先春;曹利蒲 | 申請(專利權)人: | 北京華能新銳控制技術有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2458;G06Q50/06 |
| 代理公司: | 北京中知法苑知識產權代理有限公司 11226 | 代理人: | 李明;趙吉陽 |
| 地址: | 102209 北京市昌平區北七家*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 窗口 模式識別 時間 序列 數據處理 方法 | ||
一種基于變窗口模式識別的時間序列缺失值填補方法,所述方法包括如下步驟:基于運行機理的風電機組有功功率相關性變量選取;基于數據特征選擇的風電機組有功功率相關性變量選取;針對風電機組有功功率的多維相關性變量的變窗口模式匹配;基于相似模式的風電機組有功功率連續缺失數據塊多重填補;多重填補結果評價及確認;針對工業物聯網廣泛存在以及常見的數據連續缺失情況,可以高效、準確的實現高比例缺失數據的填補,大大提高有效數據量,為機器學習、人工智能等數據驅動類算法的實施和應用奠定了重要的數據基礎。
技術領域
本發明屬于數據處理領域,特別是涉及一種基于變窗口模式識別的時間序列數據處理方法。
背景技術
隨著物聯網的出現,時間序列數據被傳感器廣泛采集和存儲。然而,受斷電、通訊或存儲等因素影響,易引發數據連續缺失并形成缺失數據塊,降低了數據質量,不僅影響實時監測性能,還危害到后續的離線數據分析與處理工作。
此外,受通訊干擾、傳感器故障等因素影響,物聯網所采集的時間序列中同樣包含大量異常數據,在經歷數據預處理環節后,大量異常數據被清洗,進一步加劇數據缺失程度。尤其是,連續缺失數據塊的規模進一步增加,大大增加了缺失數據填補的難度。
當缺失數據占比較高時,用于缺失數據填補的有效信息急劇減少,如何實現高效、準確的完成缺失數據填補,并保證填補質量。
發明內容
為了克服以上現有生產中技術的不足,提供了一種基于變窗口模式識別的時間序列缺失值填補方法
一種基于變窗口模式識別的時間序列缺失值填補方法,其特征在于,所述方法包括如下步驟:
步驟(1),基于運行機理的風電機組有功功率相關性變量選取;
步驟(2),基于數據特征選擇的風電機組有功功率相關性變量選取;
步驟(3),針對風電機組有功功率的多維相關性變量的變窗口模式匹配;
步驟(4),基于相似模式的風電機組有功功率連續缺失數據塊多重填補;
步驟(5),多重填補結果評價及確認。
本發明的有益效果是:針對工業物聯網廣泛存在以及常見的數據連續缺失情況,通過本方法可以高效、準確的實現高比例缺失數據的填補,大大提高有效數據量。為機器學習、人工智能等數據驅動類算法的實施和應用奠定了重要的數據基礎。
附圖說明
圖1為數據填補流程圖;
圖2為基于高斯過程回歸算法的數據填補結果;
具體實施方式
下面結合附圖對本發明作進一步描述,應當理解,此處所描述的內容僅用于說明和解釋本發明,并不用于限定本發明。
風力發電場的數據監測與采集(SCADA)系統處理大量原始數據,例如選取某型號風電機組的風速、有功功率原始數據進行后續分析處理。由于數據采集、傳輸、存儲、棄風限電后的數據清洗等原因,預處理后的風電機組有功功率數據形成了規模不等的數據缺失。其中,由于棄風限電及數據清洗,導致了大量連續缺失數據塊的出現。
本發明提供一種基于變窗口模式識別的時間序列缺失值填補方法,針對風力發電系統數據缺失進行處理,所述方法包括如下步驟:
步驟(1),基于運行機理的風電機組有功功率相關性變量選取;
步驟(2),基于數據特征選擇的風電機組有功功率相關性變量選取;
步驟(3),針對風電機組有功功率的多維相關性變量的變窗口模式匹配;
步驟(4),基于相似模式的風電機組有功功率連續缺失數據塊多重填補;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京華能新銳控制技術有限公司,未經北京華能新銳控制技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011402843.6/2.html,轉載請聲明來源鉆瓜專利網。





