[發明專利]一種厭氧數學建模過程缺失數據的預處理方法在審
| 申請號: | 201410570879.3 | 申請日: | 2014-10-23 |
| 公開(公告)號: | CN104318101A | 公開(公告)日: | 2015-01-28 |
| 發明(設計)人: | 李兵;程言君;鄭曉偉;肖佳旭;廖曉霞;吳鎮佳 | 申請(專利權)人: | 輕工業環境保護研究所 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100089 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數學 建模 過程 缺失 數據 預處理 方法 | ||
技術領域
本發明涉及厭氧消化領域數學建模預測沼氣產氣速率和產氣量,實現厭氧消化過程關鍵參數的軟件傳感,具體涉及一種厭氧數學建模過程缺失數據的預處理方法。?
背景技術
在厭氧沼氣工程運行過程中,由于通訊中斷、信號干擾、傳感器故障或者人為誤操作會造成一些監測數據的缺失。管理者和技術支持者希望通過對缺失數據的計算與分析,能夠準確地評估系統運行效率,通過數學建模預測產氣過程和關鍵指標的軟件傳感。如,在進行產氣異常智能分析建模時,時間、進水量、產氣量等指標的數據質量直接影響到模型的結果精度與評價標準,因此,對數據進行預處理就顯得非常重要。?
缺失值是造成臟數據的主要因素之一,是對以數據挖掘為主要手段的數學處理方法應用的巨大威脅。數據缺失造成的影響主要有:系統丟失了大量的有用信息;系統中表現出的不確定性更加顯著,系統中蘊含的確定性成分更難把握;包含空值的數據會使挖掘過程陷入混亂,導致不可靠的輸出。因此,沒有高質量的數據,就沒有高質量的挖掘結果,也就沒有高質量的決策。對缺失值進行插補是處理缺失數據、提高數據質量的方法之一。可能值插補缺失值的思想來源于以最可能的值來插補缺失值比全部刪除不完全樣本所產生的信息丟失要少。在數據挖掘中,面對的通常是大型的數據庫,它的屬性有幾十個甚至幾百個,因為一個屬性值的缺失而放棄大量的其他屬性值,這種刪除是對信息的極大浪費,所以產生了以可能值對缺失值進行插補的思想和方法。對缺失數據的預處理,通常是采用基于加權平均值的方法進行數據補齊,即用某段時間內的數據加權平均得到缺損值,對于很多情況,補值效果并不理想,因而這種方法具有很大的局限性。?
基于以上所述,針對規模化沼氣運行過程中的一些產氣量無法正常采集,如果丟失這部分數據,將影響產氣量的計算結果,最終導致產氣率數據誤差很大。為了達了較好的建模和分析效果,需要對厭氧消化過程指標數據進行預處理,即需通過合適算法對缺失數據進行補齊,之后再算出厭氧消化過程的產氣率。?
本發明針對用戶在厭氧消化建模過程的缺失數據進行分析,而挖掘目標是實現不完整數據到完整數據,有效地完備了數據,從而使模型構建得更精確,預測效果更好。?
發明內容
數據分組處理算法是一種自組織的數據挖掘算法,用到了自組織數據挖掘主要原理。本發明通過數據分組處理算法對缺失值前后5個共10個數據為一組的進水量和產氣量數據進行插補,從而實現對酒精廢水產氣量缺失數據的預處理。?
方法包括以下步驟:首先將導入的原始數據分組,再確定因變量和自變量,剔除組里的?缺失值并將剩下數據依次排序,然后基于拉格朗日插值算法確定插值模型,再將缺失數據依次進行插補。然后往下一組同理處理,直到所有組數據處理完。?
所述的厭氧消化建模過程缺失數據的預處理方法,其特征在于,所述的基于拉格朗日算法對缺失值逼近插值,在結點上給出結點基函數,然后做基函數的線性組合,組合系數為結點函數值,構造多項式逼近原函數,從而插值逼近缺失值,直到完備所有數據。且拉格朗日算法容易實現和操作,結果插值逼近地較精準。?
基于拉格朗日算法,本技術用JAVA代碼實現數據缺失值插補的全自動化處理,并將它完備為一個數據處理平臺。(算法偽代碼見附件1)?
所述的預處理方法步驟:?
(1)導入兩組相關屬性數據并確定自變量和因變量:?
Xn={x0,x1,……,xi,……,xn}?
Yn={y0,y1,……,yi,……,yn}?
然后提取缺失值{xi,yi}前后5個數據組為一組:?
Xn-1={xi-5,xi-4,xi-3,xi-2,xi-1,xi,xi+1,xi+2,xi+3,xi+4,xi+5}?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于輕工業環境保護研究所,未經輕工業環境保護研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410570879.3/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





