[發明專利]一種基于隨機森林回歸的汽油辛烷值損失預測及優化方法在審
| 申請號: | 202110585037.5 | 申請日: | 2021-05-27 |
| 公開(公告)號: | CN113362913A | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 陳德裕;許江華;林芳;李明 | 申請(專利權)人: | 南通大學 |
| 主分類號: | G16C20/30 | 分類號: | G16C20/30;G16C10/00;G06N3/00 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 張俊俊 |
| 地址: | 226019 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 隨機 森林 回歸 汽油 辛烷值 損失 預測 優化 方法 | ||
1.一種基于隨機森林回歸的汽油辛烷值損失預測及優化方法,其特征在于,具體包括以下步驟:
第一步、對影響汽油辛烷值的操作變量和非操作變量數據進行預處理:
(1)統計各操作變量的數據缺失,將數據缺失達到20%以上的變量進行刪除;
(2)對于變量中部分缺失的數據,用前后兩個時間點的數據的平均值代替;
(3)根據3σ準則刪去變量中的異常值,再用前后兩個時間點的數據的平均值代替;采用3σ準則找出變量中的異常值,若某一變量下測量值xi的剩余誤差的絕對值|vi|大于3乘以該變量下所有測量值的標準誤差σ,則認為該測量值是異常的,即,
其中,表示該變量下所有測量值的算術平均值,σ表示所有測量值的標準誤差
第二步、操作變量的篩選:
(1)Spearman秩相關系數篩選
Spearman秩相關系數的定義為,
當樣本有相同的秩,稱之為有結,需要采用平均秩法賦秩,并將Spearman秩相關系數調整為,
其中,
(2)Kendall秩相關系數篩選:
當樣本觀測值無結時,Kendall相關系數為,
其中,
同理,觀測值中有結的,采用平均秩法賦秩,并將Kendall秩相關系數調整為,
其中,
(3)基于變異系數篩選
無量綱的變異系數,變異系數的定義為,
(4)基于樹模型的嵌入法篩選:
GBDT是在Boosting方法的基礎上改進的,Boosting方法可將弱分類器綜合成強分類器,先由訓練集和分類算法訓練出一個基分類器,錯誤分類的樣本將在下次訓練時得到關注,如此一來,每進行一次迭代,分類算法對錯誤的分類進行改進,最后累計得到一個分類效果更好的強分類器,GBDT則是在Boosting方法的基礎上使每次迭代都能減少殘差;
第三步、非操作變量的篩選:
(1)基于因子分析的降維:
R因子分析中不可直接觀測又客觀存在的共同影響因素稱為公共因子,每一個變量都可以用公共因子的線性函數與特殊因子的和來表示,即:
Xi=ai1F1+ai2F2+…+aimFm+εi,i=1,2,...,p
其中Fm稱為公共因子,εi稱為Xi的特殊因子,該模型也可以用矩陣來表示:
X=AF+ε
第四步、模型建立:
隨機森林回歸可以分析在若干自變量對因變量的影響,假設Y表示因變量,有n個觀測值,能影響因變量的自變量有k個,在構建回歸樹的過程中,隨機森林通過bootstrap重抽樣方法來隨機抽取部分因變量的值,從k個自變量中隨機選取指定數量的變量構成分類樹的節點,通過隨機選取的方式能夠確保每次構建的回歸樹都不同,基于bootstrap方法,隨機森林通常能隨機地生成數百甚至上千棵分類樹,從這些分類樹中,把重復度最高的樹選作最終的結果,由回歸樹θ構成組合模型{h(X,θj),j=1,2,...,b},采用j棵決策樹h(X,θj)預測值的平均值作為隨機森林回歸模型最終輸出的預測結果;
第五步、基于改進模擬退火算法的變量優化與汽油辛烷值預測:
(1)設定控制參數與初始解:
設定足夠大的初始溫度T0,令T=T0,再設定降溫速率q(q<1)、結束溫度Tend以及每個T時的迭代次數,即Metropolis鏈長L,然后設定初始解S1;
(2)二重循環:
對當前溫度T和k=1,…,L,重復步驟(3)-(7);
(3)解變換產生新解:
對當前解S1進行擾動產生一個新解S2;
(4)預測產品硫含量:
利用產品硫含量預測模型來預測樣本在當前調整下的產品硫含量;
(5)判別產品硫含量約束:
由于預測得到的產品硫含量并不總是小于真實的產品硫含量,為了保證真實的產品硫含量不大于5μg/g,可以保守地將要求提高為預測的產品硫含量應不大于4.8μg/g,若產品硫含量的預測值滿足不大于4.8μg/g,則繼續步驟(6),否則,返回步驟(3),重新調整變量;
(6)預測RON損失:
利用RON損失預測模型來預測樣本在當前調整下的RON損失;
(7)Metropolis準則判斷是否接受新解:
先計算S2與S1的目標函數增量df=f(S2)-f(S1),即當前調整下的RON損失預測值與上一次接受的調整下的RON損失預測值之差;若df<0,則以概率1接受S2作為新的當前解;否則,計算S2的接受概率并產生(0,1)區間上均勻分布的隨機數rand,若則接受S2作為新的當前解,否則保留當前解S1,Metropolis的抽樣過程可對比物理退火過程中的等溫過程,目標函數的減少可對比系統能量的降低,對于與周圍環境交換熱量而溫度不變的封閉系統,系統狀態總是自發地朝自由能減少的方向進行,當自由能達到最小時,系統達到平衡狀態;
(8)終止條件判斷:
若當前溫度T大于預先設定的結束溫度Tend,則輸出當前解S1為最優解;否則,按衰減函數Ti+1=qTi衰減溫度T后返回步驟(2),控制參數T的下降對應物理退火過程中的冷卻過程,粒子的熱運動減弱,能降低系統能量,最終達到一個較低的平衡狀態。
2.一種基于隨機森林回歸的汽油辛烷值損失預測及優化方法,其特征在于,包括以下步驟:(1)對數據進行預處理,具體步驟如下:
第一步:統計出各數據集中存在缺失數據的變量,直接刪去全部數據缺失的變量;
第二步:對部分數據缺失的變量采用前后兩個時間點的數據的平均值代替;
第三步:用3σ準則統計出存在異常值的變量,將異常值刪去并用前后兩個時間點的數據的平均值代替;
(2)對操作變量進行篩選,具體步驟如下:
第一步:考慮到變量之間的高度非線性,基于Spearman秩相關系數和Kendall秩相關系數剔除與RON損失幾乎不相關的變量;
第二步:考慮到變量之間有不同的量綱,將難以區分樣本的變量剔除,基于變異系數進行篩選;
第三步:考慮到變量之間還有相互強耦聯關系,兩次基于GBDT模型將操作變量進行篩選;
(3)對于非操作變量進行因子分析進行降維;
(4)建立辛烷值損失預測模型,選用了隨機森林回歸,結合K折交叉驗證方法與均方誤差評價指標;
(5)基于改進模擬退火算法對主要變量進行優化,根據Metropolis準則接受微調后的變量結果,對辛烷值損失進行預測及優化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南通大學,未經南通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110585037.5/1.html,轉載請聲明來源鉆瓜專利網。





