[發明專利]一種工業數據增補方法有效
| 申請號: | 201110286150.X | 申請日: | 2011-09-24 |
| 公開(公告)號: | CN103020079A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 吉琨 | 申請(專利權)人: | 國家電網公司;江蘇瑞中數據股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 汪旭東 |
| 地址: | 100031 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 工業 數據 增補 方法 | ||
技術領域
本發明屬于數據挖掘技術領域,特別是涉及一種基于期望最大化和聚類分析的數據增補方法。
背景技術
隨著計算機技術的發展以及自動化水平的提高,數據的存取速度不斷增快,隨之而來出現了大量的數據缺失。近年來,數據挖掘技術在各行各業得到了廣泛的應用,為商業智能提供了輔助決策的能力。但在對實際環境的調查中發現,信息系統是不完備的,或者說存在某種程度上的不完備,從而導致工業數據存在缺失的現象。在實際的工業系統運營中,數據缺失的現象大量存在,而造成數據不完備的原因多種多樣,可能是由于數據采集設備的故障、存儲介質的故障、傳輸媒體的故障或者其他一些人為因素等等。處理缺失數據的方法有很多種而且各有其優缺點,最簡單的方法就是刪除含缺失值的記錄,這種方法比較突兀,針對電力系統中的關鍵數據此方法不適用。另外就是為缺失值確定一個合理的估計值替換缺失的部分,稱之為數據增補方法。
在增補數據時,主要常用以下方法:期望最大化算法簡單易用,但是與歷史數據關聯不緊密,喪失了前后數據的關聯性,從而導致估算數據與歷史數據不吻合,而且算法收斂的進程相當慢;灰色聚類分析增強了數據的關聯性,但是其反復迭代后無法保證的數據準確性。
一種基于期望最大化和聚類分析的缺失數據增補技術,結合了期望最大化算法簡單易用和聚類高關聯度的特性,通過二者的綜合加快了算法的收斂速度,增強了缺失數據與完整數據的緊密程度,提高了增補數據的精確度。本發明正是為了實現一種高效的數據增補技術而開發實現的。
發明內容
為解決上述問題,本發明旨在提供一種基于期望最大化和聚類分析的數據增補技術,該技術在工業數據缺失的情況下,保證了增補數據的收斂速度、與歷史數據的緊密度以及增補數據的精確度。本發明所針對的數據是工業生產中產生的缺失數據,此類缺失數據與真實歷史數據具有較強的相關性、相似性,因此在使用本發明前,應存在一定量的歷史數據。
本發明采用方法為:
步驟A:確定參照序列、缺失序列。記序列????????????????????????????????????????????????為完整的參照序列,記序列為缺失序列,其中;
步驟B:初始化序列。調整完整參照序列的元素個數,將其中與缺失序列中相對缺失的數據刪除,形成臨時的參照序列,記為。序列稱為序列的始點零化像,記為;
步驟C:分析缺失序列與參照序列的關系,計算灰色關聯度,劃分聚類;首先根據公式計算出序列的面積,臨時參照序列的面積,缺失序列的面積;計算序列1與序列i之間的灰色關聯度,記為序列1與序列i之間的相似程度,?計算所有參照序列之間以及與缺失序列之間的相似程度,將所有的參照序列組合成上三角矩陣;
根據臨界值r對所有的進行聚類分析,將所有的序列按照聚類劃分;
進行灰色關聯分析,確定與缺失序列相似程度較高的不完整序列集合并恢復為完整的序列,做均值化處理,得出唯一的均值完整參照序列,記錄完整序列集合中對應缺失數據位置的最大值max_value和最小值min_value;
步驟D:計算缺失數據;
根據EM算法利用缺失數據的序列計算出要被估計的參數;取最大值max_value和最小值min_value之間為缺失數據,將最小值min_value增補到缺失數據的序列中形成臨時的完整序列,計算完整數據的對數似然函數的期望值;
極大化對數似然函數以確定參數的值,經反復的迭代可以得出多個介于max_value與min_value之間的缺失數據初步估計值。
將缺失數據初步估計值逐一代入缺失數據的序列中,與均值完整參照序列進行關聯度分析得到,取的極大值對應的數據作為最終的增補數據。
本發明方法的有益效果是,可以在具有歷史數據的條件下,縮短了估算周期,提高了估算的精度,提高了缺失數據的估算效率。
本發明結合了期望最大化算法和灰色聚類分析的優點,提供一種結合了期望最大化方法和聚類分析方法的數據增補技術,在反復估算的基礎上又保證數據的關聯性,完整地將數據增補到缺失序列中,使得缺失數據的計算效率增加,收斂的周期縮短,并且使其估算精度提高。
附圖說明
圖1是基于期望最大化和聚類分析的數據增補技術的流程圖。
具體實施方式
本發明具體實施例如下:
其中方案流程圖如附圖1所示。該技術方案包括如下步驟:
步驟A:確定參照序列、缺失序列。記序列為完整的參照序列,記序列為缺失序列,其中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家電網公司;江蘇瑞中數據股份有限公司,未經國家電網公司;江蘇瑞中數據股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110286150.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電子裝置及其顯示方法
- 下一篇:一種氣門座圈檢具及檢測方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





