[發明專利]一種針對工業監測數據缺失的補全方法及補全裝置有效
| 申請號: | 201910055378.4 | 申請日: | 2019-01-21 |
| 公開(公告)號: | CN109815223B | 公開(公告)日: | 2020-09-25 |
| 發明(設計)人: | 班曉娟;劉婷;袁兆麟;王貽明;王青海;趙占斌 | 申請(專利權)人: | 北京科技大學;金誠信礦業管理股份有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06N3/04 |
| 代理公司: | 北京市廣友專利事務所有限責任公司 11237 | 代理人: | 張仲波 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 工業 監測 數據 缺失 方法 裝置 | ||
本發明提供一種針對工業監測數據缺失的補全方法及補全裝置,能夠提高數據補缺效果。所述方法包括:獲取原始數據集,其中,所述原始數據集為缺失類型為完全隨機缺失的原始工業監測數據集;根據獲取的原始數據集,構建自動編碼機;其中,在構建自動編碼機時,在輸入的原始數據中加入噪聲再訓練自動編碼機,訓練好的自動編碼機,用于實現原始數據中特征向量的升維和降維;根據獲取的原始數據集,建立生成式模型;將構建好的自動編碼機和生成式模型進行結合,利用原始數據集對結合后的模型進行優化訓練,獲得與原始數據特征分布相似的生成數據。本發明涉及工業生產和數據挖掘領域。
技術領域
本發明涉及工業生產和數據挖掘領域,特別是指一種針對工業監測數據缺失的補全方法及補全裝置。
背景技術
在工業領域,數據的價值越來越被人們所重視,通常采用機器學習和數據挖掘手段從數據中獲取規律和信息。數據挖掘工程能否成功的核心因素是數據集的質量,如果數據集質量差或與所研究問題相關性不強,即使特征選擇和模型建立的方法再先進也無法取得符合預期的成果。
數據缺失是工業監測數據經常面臨的問題,出現缺失的主要原因可以包括:
(a)儀器工作狀態不穩定:現場環境因素或人為原因導致某些儀表在某些時間段內沒有正常工作,從而造成數據缺失;
(b)分布式控制系統(Distributed Control System,DCS)的原因:由于網絡中斷、操作員站系統宕機、軟件故障等原因,導致現場監測數據沒有錄入到DCS系統或數據庫;
(c)異常監測數據:生產過程中,由于傳感器精準度、生產異常波動等原因,常常存在異常監測數據,此類“壞數據”與實際生產狀況不符,需要剔除,而剔除的過程相當于引入了數據缺失。
數據缺失使得獲得的數據不能夠代表樣本空間的整體分布,給后續數據分析工作帶來很大的阻礙。數據缺失處理即為針對有缺失的數據集,根據其數據特點進行處理,達到補充數據集缺失信息的目標,是解決數據缺失問題,提高數據集質量的核心方法,一般的缺失處理手段有填補法、刪除法和不做處理。本文主要研究的缺失處理手段為填補法。
數據缺失的機制主要有三類:隨機缺失,完全隨機缺失和非隨機缺失。隨機缺失指的是數據的缺失不是完全隨機的,即該類數據的缺失依賴于其他完全變量;完全隨機缺失指的是數據的缺失是完全隨機的,不依賴與任何不完全變量或完全變量,不影響數據集整體的無偏性。
隨機缺失和完全隨機缺失可以通過統計學方法對數據集進行處理從而對缺失值進行估計,在缺失率較低的情況下能夠較好的完成數據集的缺失補全。但是當數據集的缺失率達到30%以上時,現有的數據集無法視作完整數據集的隨機樣本,由于該類缺失存在的與變量完全不相關的特點,使得現有的基于統計原理的補缺方法難以取得較好的結果,反而為數據集引入了噪聲,降低了數據集的質量。因此,現有技術中,針對完全隨機缺失大多采用在數據預處理階段不處理,而依賴能夠忽視缺失的機器學習建模方法,例如貝葉斯網絡和人工神經網絡等。但是如上文所述,當數據缺失率較高時,機器學習算法也無法很好地完成數據挖掘任務。并且目前完全隨機缺失機制在實際低維離散數據集中廣泛存在,例如測量設備故障、不正確的數據遷移等行為均會引起數據集的完全隨機缺失,這使得這些數據在應用中只能采取列刪除法,將存在缺失值的數據記錄刪除,大大減少了數據的價值。
發明內容
本發明要解決的技術問題是提供一種針對工業監測數據缺失的補全方法及補全裝置,以解決現有技術所存在的針對高缺失率的低維離散完全隨機缺失類型數據集補缺效果差的問題。
為解決上述技術問題,本發明實施例提供一種針對工業監測數據缺失的補全方法,包括:
獲取原始數據集,其中,所述原始數據集為缺失類型為完全隨機缺失的原始工業監測數據集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科技大學;金誠信礦業管理股份有限公司,未經北京科技大學;金誠信礦業管理股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910055378.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





