[發明專利]一種基于實時歷史數據庫的數據清洗方法有效
| 申請號: | 201210022770.7 | 申請日: | 2012-02-02 |
| 公開(公告)號: | CN102609501A | 公開(公告)日: | 2012-07-25 |
| 發明(設計)人: | 黃孝彬;張曉剛;景超 | 申請(專利權)人: | 北京華電天仁電力控制技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京金闕華進專利事務所(普通合伙) 11224 | 代理人: | 吳鴻維 |
| 地址: | 100039 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 實時 歷史 數據庫 數據 清洗 方法 | ||
技術領域
本申請涉及數據庫,信息技術領域,具體涉及一種數據清洗方法,可直接應用于采用實時歷史數據庫存儲數據的行業,如電力、石油化工、冶金等領域。
背景技術
隨著信息技術在電力企業的普及,數據倉庫在這個領域得到了進一步的應用。我們知道,數據倉庫是面向主題的,那么,我們能不能通過面向被廣泛應用于電廠的大量的實時歷史數據,建立應用決策分析的數據倉庫呢?顯然是可以的。
然而,實時歷史數據庫中數據質量的好壞是數據倉庫應用成功與否的關鍵因素,許多數據倉庫項目的失敗就是因為對導入數據倉庫的各種數據質量缺乏足夠的重視。因此建立數據倉庫的過程中,需要有效的技術手段和工具來提高導入數據倉庫的數據質量。
數據挖掘(Data?Mining)就是從大量數據中發現潛在規律、提取有用知識的方法和技術。目前,數據挖掘技術已經趨于成熟,并在銀行、電信、保險、交通、零售(如超級市場)等商業領域有了很多成功的應用,我們可以通過應用數據挖掘技術,建立指導電廠實時運行的數據倉庫,隨著時間的推移,數據倉庫的數據不斷豐富和準確,為決策分析提供了強有力的事實依據。
數據清洗處在數據挖掘過程的第一個環節,是對“臟數據”過濾的主要步驟之一,顯然清洗算法準確性和徹底性則顯得尤為重要。
通常情況下,數據清洗大致都由三個階段組成:(1)數據分析、定義錯誤類型;(2)搜索、識別錯誤記錄;(3)修正錯誤。第一階段,盡管已有一些數據分析工具,但仍以人工分析為主。第二階段,有兩種基本的思路用于識別錯誤:一種是發掘數據中存在的模式,然后利用這些模式清理數據;另一種是基于數據的,根據預定義的清理規則,查找不匹配的記錄。后者用得更多。第三階段,某些特定領域能夠根據發現的錯誤模式,編制程序或借助于外部標準源文件、數據字典一定程度上修正錯誤。
目前,數據清洗技術在電廠信息化領域的應用還很少,有針對性的對過程控制系統的測點數據,采用數據清洗技術還沒有,為此如何通過一種準確、嚴謹的清洗方法,對過程“臟數據”進行高效的過濾,成為了建立電廠信息化數據倉庫的首要思考的問題。
發明內容
為解決現有技術中存在以上問題,本發明公開了一種基于實時歷史數據庫的數據清洗方法。
首先對本發明所使用的技術術語作以下解釋和說明:
實時歷史數據庫:也被稱為實時庫或者實時數據庫,與關系型數據庫相對應。實時歷史數據庫是實現工業海量數據采集的有效手段,可用于工廠過程的自動采集、存儲和監視,可在線存儲每個工藝過程點的多年數據,可以提供清晰、精確的操作情況畫面,用戶既可瀏覽工廠當前的生產情況,也可回顧過去的生產情況。
測點:在實時歷史數據庫中,用來記錄器件信息的元數據被稱為測點或者標簽點,可以理解為一個數據結構,包括采集時間,數值,狀態,類型等屬性。
測點數據:器件的運行數據被不斷地采集并存儲在實時歷史數據庫的測點中,測點數據結構中的數據被稱為測點數據。
過程控制設備:這里指的是智能的自動化控制設備,如DCS等。
器件:指過程控制設備中的傳感器。
時間戳:器件的運行數據被不斷的采集并存儲在實時歷史數據庫中的測點中,采集的時間,被稱為測點的時間戳。
數據清洗:在建立數據倉庫時,針對不同的數據對象,定義不同的優劣標準,通過技術手段將這些“劣”數據去除的過程被稱為數據清洗。
清洗時間范圍:用戶可以針對任意一段時間內的測點進行數據清洗,這個時間段叫做清洗時間范圍。
時間閾值Vi:測點i的采樣周期。
清洗倍率Ni:指測點i數據閾值的一個倍數。
本發明具體采用以下技術方案。
一種基于實時歷史數據庫的數據清洗方法,其特征在于,所述方法包括以下步驟:
(1)針對過程控制設備的各個器件,在實時歷史數據庫中,建立與各個器件對應的測點,并通過配置測點的屬性建立起測點和各個器件的對應關系;
(2)對過程控制設備的數據進行采集,采集到的數據被送到實時歷史數據庫中;
(3)通過現有的實時歷史數據庫接口程序,采集實時歷史數據庫中測點數據的原始數據信息,查看各測點數據的時間戳信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京華電天仁電力控制技術有限公司,未經北京華電天仁電力控制技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210022770.7/2.html,轉載請聲明來源鉆瓜專利網。





