[發明專利]結合互補集合經驗模態分解的Xgboost時間序列預測方法有效
| 申請號: | 201711353240.X | 申請日: | 2017-12-15 |
| 公開(公告)號: | CN108228978B | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 胥博 | 申請(專利權)人: | 四川金網通電子科技有限公司 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06F17/18;G06F111/10;G06F119/12 |
| 代理公司: | 四川省成都市天策商標專利事務所 51213 | 代理人: | 劉興亮 |
| 地址: | 610000 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結合 互補 集合 經驗 分解 xgboost 時間 序列 預測 方法 | ||
1.一種結合互補集合經驗模態分解的Xgboost時間序列預測方法,其特征在于包括如下步驟:
步驟一:數據預處理
在對銷售數據時間序列建立預測模型之前,必須處理數據中的缺失值、異常值;
當銷售數據中時間序列中存在缺失值時,需要對缺失位置添加一個估計值;估計值是通過一個窗口均值濾波得到:
式(14)中,假設了xt是一個缺失值,通過處理后就等于xt為中心的一個時窗內的均值;
對于銷售數據的時間序列的異常值的檢查中主要分以下幾個流程:(1)看每個時間序列的數據的單位是否一致;(2)相鄰數據間的時間間隔大小是否都相等;(3)檢查每個時間序列中是否存在非數字的數據;(4)箱型圖檢查一些異常大或者異常小的值;
步驟二:利用互補集合的經驗模態分解方法對銷售數據時間序列處理互補集合的經驗模態分解方法是在一般的經驗模態方法上改進的;互補集合的經驗模態分解方法解決了一般經驗模態分解中“模態混疊”現象;主要步驟是:
1)將原始銷售數據時間序列中分別加入模值相等正負兩組高斯白噪聲;
定義μσi(t)是獨立的高斯白噪聲,μ為噪聲的幅值,定義為:
上式中:δ是標準差函數,說明μ等于時間序列和高斯白噪聲之比;
2)通過一般經驗模態函數對分別混有正負高斯白噪聲的ym(t)進行處理,得到兩組IMF序列和余項;
3)在目標信號中假如不同高斯白噪聲信號,并重復(1),(2)P次,之后進行總體平均:
則最終的本征模態函數f的通式可以表示為:
假設分解得到m個本征模態函數那么:
上式中:等號右邊第二項就是分解的余項;
對任意時間序列g的互補集合經驗模態分解用公式表示為:
上式中:fi是通過經驗模態分解得到的m個相互正交的本征模態函數,r是余項,包含了時間序列的趨勢性;把等號右邊第一項定義本征模態的和可以寫成:
根據上式可以看出本征模態函數的和是關于本征模態函數的線性組合;
步驟三:利用Xgboost建立正交性因素建立回歸模型
由于本征模態函數相互正交,那么可以將本征模態函數定義為一組正交基,根據這組正交基就可以張成一個線性空間α=span{f1,...,fm};任意本征模態函數的回歸模型是一個含N項的數列,i=1,2,...,N,可以寫成一個向量形式:那么是RN維線性空間V中的一個向量;同理每個本征模態函數也是N維線性空間中的一個向量,因此α是V的一個子空間;由線性空間理論可知線性空間中的一個極大線性無關組就是該線性空間的一組基,同時V中秩就是N也等于N維線性空間中的極大線性無關組的個數,因此必然存在一個極大線性無關組{f1,...,fm,r1,....,rN-m},ri,...,rN-m是在V中,但不在α空間的向量,與f1,f2,...fm構成了一組基;另一方面,該N維線性空間中的標準基e為:
根據內積空間的定義,由上式的標準基知道V是一個內積空間,所以{f1,...,fm,r1,....,rN-m}是一組正交基;
由上面的結論可以將任意本征模態函數對應回歸模型表示成
上式中是本征模態函數回歸模型與f1,...,fm,r1,....,rN-m的內積,通過內積空間性質可以求出:
因此通過訓練得到的回歸模型函數與對應本征模態函數之間的誤差等于:
上式中:ei是對應下標的本征模態函數與它的回歸模型函數之間的誤差;定義等號右邊左起第三項為外空間誤差;定義等號右邊左起第二項為內空間誤差;根據第二步驟中的本征模態之和的定義,可以知道本征模態函數之和是α空間中的一個向量,所以根據上式求得任意ei中的外空間誤差余項越小說明滿足本征模態函數正交性的特征的能力越高,得到的模型攜帶的噪聲信息也越低;根據以上結論及定義建立Xgboost模型;
步驟四 利用Xgboost擬合非正交特征因素影響以外的部分
根據步驟三得到一個擬合模型由于α空間是一個內積空間,每個維度都定于在實數域上,因此α是一個歐式空間;因此可以找到一個函數序列其中,滿足函數序列按范數收斂:
上式中:定義范數定義為因此定義一個新的XGboost的損失函數:
上式中:k時迭代次數;同樣按照第三步驟展開求導的方法就可以建立對應的Xgboost模型;模型的輸出就是最終的回歸模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川金網通電子科技有限公司,未經四川金網通電子科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711353240.X/1.html,轉載請聲明來源鉆瓜專利網。





