[發明專利]基于隨機森林的二噁英排放濃度遷移學習預測方法在審
| 申請號: | 202010198927.6 | 申請日: | 2020-03-20 |
| 公開(公告)號: | CN111461355A | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 湯健;夏恒;喬俊飛;杜勝利;李曉理 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06N20/20 | 分類號: | G06N20/20;G06Q10/04;G06Q50/26 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 吳蔭芳 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 隨機 森林 二噁英 排放 濃度 遷移 學習 預測 方法 | ||
1.一種基于隨機森林的二噁英排放濃度遷移學習預測方法,其特征在于,包括以下步驟:
步驟1、對DXN排放濃度的源域樣本和目標域樣本賦予初始權重;
步驟2、基于隨機樣本采樣和隨機特征采樣策略建立基于RF的DXN排放濃度預測模型;
步驟3、基于預測誤差對樣本權重進行迭代調整,增大源域中與目標域相關實例的權重,提升目標域DXN排放濃度預測模型的泛化能力。
2.如權利要求1所述的基于隨機森林的二噁英排放濃度遷移學習預測方法,其特征在于,步驟1具體為:
將在預定時間周期內獲取的、與待預測MSWI過程相似或相近的DXN排放濃度樣本作為源域數據,并記為相應的,將目標域數據記為
采用簡單平均方法,計算得到源域和目標域樣本的初始權重,
可知,可采用表示全部樣本的初始權重,
設確定權重更新次數并將其記為K,并將第kth次的更新樣本權重記為
其可分解表示為,
顯然,在第1次的權重計算時,的取值應為在DXN預測模型的構建過程中,需要對樣本權重進行迭代更新,以增強源域樣本向目標樣本的遷移能力。
3.如權利要求1所述的基于隨機森林的二噁英排放濃度遷移學習預測方法,其特征在于,步驟2具體為:
以第kth次權重更新的過程為例,描述基于RF的DXN預測模型的構建過程,
首先,計算在DS中用于選擇樣本的權重閾值如下所示:
其中,kthre為權重閾值的權系數,其默認值為1,
接著,在源域中選擇樣本權值大于的N′個樣本,再在小于的實例中通過Bootstrap采樣方法獲得(N-N′)個樣本,通過以上方式,對源域DS進行依據經驗預設定的J次操作,獲得基于源域的訓練子集最后,將源域訓練子集與目標域DT進行組合,并引入隨機子空間法(RSM)選擇特征子集,最終生成包含N+M個樣本和Qj個特征的J個訓練子集
訓練子集的產生過程可表示為:
其中,表示源域中樣本權重大于的N′個樣本;表示源域中樣本權重小于的(N-N′)個樣本;表示經過第jth次的樣本采樣和特征采樣獲得的訓練子集;q=1,…,Q,Q表示DXN建模樣本中全部輸入特征的數量;Q′j表示第jth個訓練子集所包含的輸入特征數量,通常存在Q′j<<Q′。
此處,以第jth個訓練子集為例描述基于RF的DXN子模型的構建過程,首先去除因隨機采樣造成的訓練子集中所存在的重復樣本,并將其標記為以第qth個輸入特征xj,q作為切分變量,以第iselth個樣本所對應的值作為切分點,將輸入特征空間切分為兩個區域R1和R2,
基于以下準則遍歷尋找最佳切分變量(輸入特征)編號和切分點取值,
其中,和分別表示第jth個訓練子集在R1和R2區域的DXN測量值;C1和C2分別表示在R1和R2兩個區域中DXN測量值的均值,
基于上述準則,首先通過遍歷所有輸入特征找到最優變量編號和切分點取值,將輸入特征空間劃分為兩個區域;然后對每個區域再重復上述過程,直到葉子點所包含的訓練樣本數量少于預先設定的閾值θRF;最終將輸入特征空間劃分為P個區域,將這些區域分別標記為R1,…,Rp,…,RP,
采用CART回歸樹構建的基于RF的DXN子模型可表示為:
其中,
其中,NRp表示區域Rp所包含的訓練樣本數量;表示第jth個訓練子集在Rp區域的第個建模樣本的DXN測量值;I(·)為指示函數,在時存在I(·)=1,否則存在I(·)=0。
重復上述過程,將J個基于RF的DXN子模型的預測輸出進行簡單加權平均,進而獲得第kth次權重更新后的基于RF的DXN預測模型Fk(·),其可表示為,
其中,表示DXN預測模型Fk(·)的預測輸出。
4.如權利要求1所述的基于隨機森林的二噁英排放濃度遷移學習預測方法,其特征在于,步驟3具體為:
首先,計算預測輸出與測量真值的誤差,以第ith個建模樣本為例,如下,
進而,預測誤差的集合可表示為
為通過線性變換將全部預測誤差映射到統一的區間,按下式計算誤差的最大值,
再通過下式將真實誤差映射為調整誤差值
接著,按照下式計算迭代更新條件εk,
接著,通過判斷εk是否大于閾值εthre(默認值為0.5)和達到預設定的權重更新次數K;若達到則更新停止,并獲得最終的DXN預測模型F(·)的輸出反之,則對源域數據集DS和目標域數據集DT組成的建模樣本的權重進行更新;具體步驟如下:
首先按照下式,計算更新系數β的值,
接著,計算源域和目標域樣本的權重更新值,如下所示,
最后,采用新的權重更新值記為,
替代上一次采用的權重值如下,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010198927.6/1.html,轉載請聲明來源鉆瓜專利網。





