[發明專利]基于隨機森林和梯度提升樹的預測污水出水指標的方法有效
| 申請號: | 201811323416.1 | 申請日: | 2018-11-07 |
| 公開(公告)號: | CN109408774B | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 張天麟;高俊波;孫偉;趙友標;孫峰 | 申請(專利權)人: | 上海海事大學 |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18;G06K9/62;G06N3/08;G06Q10/04 |
| 代理公司: | 上海元好知識產權代理有限公司 31323 | 代理人: | 劉琰;張妍 |
| 地址: | 201306 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 隨機 森林 梯度 提升 預測 污水 出水 指標 方法 | ||
本發明公開了一種基于隨機森林和梯度提升樹的預測污水出水指標的方法,其包括以下步驟:步驟1:在原始數據訓練集中有放回地抽取樣本,構成若干樣本集;步驟2:根據樣本構建隨機森林;根據隨機森林計算特征重要性,進行屬性篩選;步驟3:根據篩選后的屬性形成的樣本構建梯度提升樹模型;步驟4:根據實時監測數據放入梯度提升樹模型中預測出污水廠未來一段時間的污水出水指標。本發明將隨機森林與梯度提升樹模型結合起來建立了污水出水指標數據的關系模型,通過隨機森林的降維和梯度提升樹高精度的訓練可以較為準確地預測出未來一段時間內的污水出水指標數據。
技術領域
本發明涉及污水處理和機器學習技術領域,具體涉及一種基于隨機森林和梯度提升樹的預測污水出水指標的方法。
背景技術
城鎮污水處理過程是一個復雜的生化反應過程,伴隨著有物理化學反應、生化反應、相變過程及物質與能量的轉化和傳遞過程,過程復雜,傳統的數學建模困難。許多學者在使用神經網絡解決此類問題上進行了研究。基于神經網絡預測污水出水指標在一定程度上解決了此類問題,但是仍有訓練速度慢,模型精確度還需要有待提升的缺點。且此類研究沒有避免在反應過程中的無關因素,這對模型的訓練速度和精確度產生了消極的影響。
發明內容
本發明的目的是提供一種基于隨機森林和梯度提升樹的預測污水出水指標的方法,目的在于建立污水主要出水指標數據和污水水質指標數據的關系模型,根據實時監測得到的污水主要出水指標數據。
為達到上述目的,本發明提供了一種基于隨機森林和梯度提升樹的預測污水出水指標的方法,其包括以下步驟:
步驟1:在原始數據訓練集中有放回地抽取樣本,構成若干樣本集;
步驟2:根據樣本構建隨機森林;根據隨機森林計算特征重要性,進行屬性篩選;
步驟3:根據篩選后的屬性形成的樣本構建梯度提升樹模型;
步驟4:根據實時監測數據放入梯度提升樹模型中預測出污水廠未來一段時間的污水出水指標。
上述的基于隨機森林和梯度提升樹的預測污水出水指標的方法,其中,所述步驟1還包括以下步驟:根據原始訓練集中有放回地隨機抽取樣本構建回歸樹;將每次未被抽到的樣本組成與回歸樹數量相同的袋外樣本。
上述的基于隨機森林和梯度提升樹的預測污水出水指標的方法,其中,所述步驟2具體包括以下步驟:
步驟2.1:遍歷每個特征屬性下可能的取值,最終選取平方誤差和最小的點作為切分點;
步驟2.2:計算每個屬性的平方誤差和,選取誤差最小的屬性作為劃分屬性;
步驟2.3:對劃分的每個樣本集構建回歸樹;
步驟2.4:將多棵回歸樹構件成回歸森林;
步驟2.5:構成的隨機森林使用訓練集進行訓練;隨機森林通過計算袋外樣本的袋外誤差來計算特征重要性;
步驟2.6:依據特征重要性對特征進行排序,篩選出重要的特征。
上述的基于隨機森林和梯度提升樹的預測污水出水指標的方法,其中,所述步驟3具體包括以下步驟:
步驟3.1:將篩選過特征的樣本構建成新的訓練樣本;
步驟3.2:每棵回歸樹通過使用負梯度來近似計算迭代過程的損失值以此確定每棵回歸樹的最佳參數;每棵回歸樹更新計算的差值,并將更新的差值放入下棵回歸樹中;
步驟3.3:將多棵回歸樹進行累加構成梯度提升樹模型。
上述的基于隨機森林和梯度提升樹的預測污水出水指標的方法,其中,所述梯度提升樹模型為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海海事大學,未經上海海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811323416.1/2.html,轉載請聲明來源鉆瓜專利網。





