[發明專利]一種基于堆疊選擇性集成學習器的空氣中細顆粒物PM2.5 有效
| 申請號: | 201811415764.1 | 申請日: | 2018-11-26 |
| 公開(公告)號: | CN109615082B | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 顧錁;喬俊飛 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G01N15/06 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 堆疊 選擇性 集成 學習 空氣 顆粒 pm base sub 2.5 | ||
1.一種基于堆疊選擇性集成學習器的空氣中細顆粒物PM2.5的預測方法,其特征在于,包括以下步驟:
第一步:收集數據;
第二步:設計用于PM2.5濃度預測的堆疊選擇性集成學習器模型;
第三步:采用修剪技術刪除三種類型的學習器中的負向基學習器以實現對各學習器的選擇性集成;
第四步:對選定的正向基學習器實施堆疊技術,將正向基學習器的結果進行堆疊,以預測未來的PM2.5濃度;
第一步中:
使用由JAVA語言設計的Android應用程序收集了NO2、O3、PM2.5、PM10、CO、SO2這6種空氣污染物的濃度以及濕度、溫度、壓力、天氣、風速、風向這6種氣象變量作為原始數據,其中對于天氣這一數據進行了量化,將晴、多云、陰、小雨、中雨、大雨、暴雨、雷雨、凍雨、小雪、中雪、大雪、暴雪、霧、沙塵暴這15種天氣依次編號為0到14;
第四步中:
對第三步所得的所有正向基學習器所得結果使用堆疊技術,以使其達到更好的預測效果;堆疊技術具體實施過程如下;
對從選定的樣本、環境因素和時間因素這三種多樣性中已選定的正向基學習器進行直接平均,得出三個合成的正向基學習器,分別表示為和從而定義一個新的合成正向基學習器集,然后通過合并后的正向基學習器集利用公式(14)來推斷PM2.5值:
p=wTΦ(V)+b???????????????????????????????(14)
式中p為PM2.5濃度預測值,Φ(v)是將輸入映射到高維特征空間的函數,函數的輸入v為第二步中各學習器的輸出結果,w和b是模型參數的權重和偏差;
求解上述權重w、偏置b和函數Φ(v);將v設為v為由[v1,v2,v3]組成的向量,即這里使用基于支持向量機的回歸方法來確定Φ(v),w和b,采取求解連續凸優化函數的方法:
式(15)為優化問題的目標函數,式(16)為優化問題的約束條件,即在式(16)的約束下求解式(15)的最小值;其中ζ=(ζ1,ζ2,...,ζu)和ζ'=(ζ'1,ζ'2,...,ζ'u),是一對待求解的松弛變量,將其作為誤差的余量,式中u為正向基學習器總個數,為Φ(v)函數的集合,即φ(vi)=(Φ(v1),Φ(v2),…,Φ(vu)),vi表示為第i個v值,Pi為第i個PM2.5濃度的測量值,i為1,2,...,u中任意正整數,ζi為第i個ζ值,ζi'為第i個ζ'值,ε表示誤差容限的范圍,κ是用于調節函數p的平滑度的正則項,此處設為300,并且避免誤差超出誤差容限ε,此處設為0.01;
使用拉格朗日乘數法求解優化問題,引入拉格朗日乘數a,a',μ,μ'≥0,a,a',μ,μ'均為u個乘數的集合,拉格朗日乘數為待求未知量,通過求解方程將拉格朗日乘數與待求解參數一同求出,重寫式(15)、(16):
其中然后將L(w,b,a,a',ζ,ζ',μ,μ')對a,a',ζ,ζ'的偏導數設置為0,i為1,2,...,u中任意正整數;進一步用徑向基函數(RBF)內核定義核函數為從而將v映射到更高維空間;簡化后推導出:
其中ai為第i個a值,a′i為第i個a'值,i為1,2,...,u中任意正整數;通過計算求解,求得權值與偏置的最優值。
2.根據權利要求1所述的一種基于堆疊選擇性集成學習器的空氣中細顆粒物PM2.5的預測方法,其特征在于,
第二步中:
對每個基學習器采用從總訓練集中抽取的各不同的子訓練集進行訓練,使基學習器具有多樣性;訓練集需體現的多樣性為:不同的樣本、環境因素和時間因素;對學習器進行訓練的數據集需進行進一步的處理以體現這三種多樣性;具體步驟是:
應用Bagging的方法來完成對樣本的抽樣操作以實現訓練樣本的多樣性;
Bagging的算法框架如下:
輸入為S、L和NB,其中S代表用于訓練的全部樣本,每個樣本包含12個數據,代表12個變量,L代表學習器,NB表示Bagging方法最大迭代次數,賦值為10;將進行中的迭代次數記為n,令n從1至NB循環,Sn為第n次迭代從S中所提取的自舉樣本,為學習器L在Sn中學習的結果,記為最后,輸出多元基學習器
將隨機子空間方法應用于環境因素;對特征空間進行隨機抽樣,使用隨機抽取的新的子集訓練產生一個新的基學習器,從而將隨機抽樣應用到特征空間中,建立具有環境因素多樣性的多元基學習器;
隨機子空間的算法框架如下:
輸入為FR、L和NR,其中FR代表訓練樣本的特征所組成的集合,即收集到原始數據的6種空氣污染物和6種氣象變量共計12個數據種類,L代表學習器,NR表示隨機子空間方法最大迭代次數,賦值為10;將進行中的迭代次數記為n,令n從1至NR進行循環,為第n次迭代從F提取出的自舉特征,為學習器L在中學習的結果,記為達到迭代次數后,輸出多元基學習器
對于時間因素采取以下處理方式;當前時間的訓練數據集為T0,當前時間的前一小時的訓練數據集為T-1,當前時間的前兩小時的訓練數據集為T-2,當前時間的前三小時的訓練數據集為T-3,以此類推,通過以時間順序連接原始數據矩陣的方法建立多個子集,分別包含在{T0,T-1},{T0,T-1,T-2},{T0,T-1,T-2,T-3},……中,使用不同的子集訓練不同的基學習器;由于該方法為一種全新的方法,現稱其為包含子空間方法;
包含子空間方法的算法框架如下:
輸入為FI、L和NI,其中FI代表各時刻的樣本特征集,L代表學習器,NI表示包含子空間方法最大迭代次數,賦值為24,代表過去24小時,每小時所收集的樣本數據;將進行中的迭代次數記為n,令n從1至NI進行循環,為第n次迭代提取出的樣本,數學表達式為[FI(1),…,FI(n+1)],為學習器L在中學習的結果,記為最后輸出多元基學習器
第三步中:
通過比較各基學習器的效果對基學習器進行修剪,刪除那些對預測結果產生消極影響的負向基學習器;具體方法如下:
(1)首先使用全部基學習器來預測PM2.5濃度值,輸入為過去24小時中每小時體現了不同的樣本、環境因素和時間因素的這三類多樣性的數據值,輸出為PM2.5濃度值;現將該黑箱模型用未知多元函數H來表示,即H:Rs→Rt,即將s階實數輸入矩陣Rs轉化為t階實數輸出矩陣Rt,輸入為處理后的訓練數據集,輸出為各學習器的輸出所組成的矩陣;z∈Rs,是根據分布P(z)從Rs中抽樣得到的;z的預期輸出為第x個基學習器的實際輸出為Hx(z),x為基學習器總個數范圍內的任意正整數,推導出在z上,全部學習器的輸出如下:
上式中,r表示基學習器的總數,ωx∈[0,1],且此處令其均相等;在z上,第x個基學習器的泛化誤差為Errx(z),全部學習器在z上的泛化誤差定義為:
第x個基學習器在P(z)分布上總的泛化誤差用積分表示為:
Errx=∫Errx(z)P(z)dz?????????????????????????????(4)
將第y個基學習器的泛化誤差設為Erry,第x和第y個基學習器之間的相關性Corrxy表示為公式(6),y為基學習器個數范圍內的任意正整數:
其中Corrxy=Corryx且Corrxx=Errx,Corryx為第y和第x個基學習器之間的相關性,Corrxx為第x個基學習器與自己之間的相關性,結合式(1)和(3),推導出:
其中,ωy∈[0,1],且此處令其均相等,ωx∈[0,1],且此處令其均相等,Hy(z)為第y個基學習器的實際輸出,此外,通過結合式(5)-(7),得到:
首先令權重ωx、ωy均相等,將式(8)改寫為:
(2)從集成基學習器中排除特定的對算法效果起負面影響的基學習器后重新集成;根據式(1)-(9),在刪除第q個基學習器后,q為基學習器個數范圍內任意正整數,推導出新的集成的泛化誤差
由式(9)-(10)推斷出,如果低于則刪除第q個基學習器的集成優于包含第q個基學習器的集成:
其中,為第x個和第q個基學習器之間的相關性,x為全部基學習器數量范圍內任意不等于q的正整數,為第q個基學習器的泛化誤差,用式(9)代替式(11)并進行以下簡化:
依此法確定第q個基學習器是負向基學習器,并且如果其相關的泛化誤差大于給定閾值Thrq則應該被排除:
基于上述修剪標準,從全部三類基學習器中刪除負向基學習器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811415764.1/1.html,轉載請聲明來源鉆瓜專利網。





