[發明專利]基于優化奇異值分解生成特征集的低信息損失短期風速預測方法有效
| 申請號: | 201910050602.0 | 申請日: | 2019-01-20 |
| 公開(公告)號: | CN109886464B | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 黃南天;吳銀銀;蔡國偉;張祎祺;楊冬鋒;黃大為;王文婷;包佳瑞琦;楊學航 | 申請(專利權)人: | 東北電力大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q50/06;G06K9/62 |
| 代理公司: | 吉林市達利專利事務所 22102 | 代理人: | 陳傳林 |
| 地址: | 132012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 優化 奇異 分解 生成 征集 信息 損失 短期 風速 預測 方法 | ||
1.一種基于優化奇異值分解生成特征集的低信息損失短期風速預測方法,其特征是,它包括以下步驟:
1)風速序列降噪處理
使用優化的變分模態分解對原始風速序列進行處理,將原始風速序列分解成若干個本征模態函數,然后,剔除幅值最小的一個本征模態函數,將其他剩余本征模態函數相加得到降噪后的風速序列,
變分模態分解對信號的處理過程包括構造和求解兩部分,涉及了三個重要概念:經典維納濾波、希爾伯特變換和頻率混合;
變分問題的構造中,變分問題是將原始信號f分解為k個模態函數Uk(t),即本征模態函數,假設每個本征模態函數的有限帶寬具有中心頻率且是ωk,使得每個模態的估計帶寬和最小,約束條件是:各模態函數之和等于原始信號f,
①通過Hilbert變換,得到每個模態函數Uk(t)的解析信號;
②對各模態的解析信號混合預估中心頻率ωk,將每個模態的頻譜移動到基頻帶上;
③采用解調信號的H高斯平滑估計各模態信號的帶寬,即梯度的二范數的平方;
因此該約束變分問題為式(1):
其中,是對t求偏導數,δ(t)為沖激函數,Uk是第k個本征模態函數;
變分問題的求解中,引入拉格朗日乘子γ(t)和二次懲罰因子α得到式(1)的增廣拉格朗日函數,
其中,γ是拉格朗日乘法算子;
利用基于對偶分解和Lagrange法的交替方向乘子方法(Alternate Direction Methodof Multipliers,ADMM)求解式(2),對Uk,ωk,γ進行交替迭代尋優:
其中表示Ui(ω),f(ω),γ(ω)的傅里葉變換;n表示迭代次數;
對于給定求解精度ε,滿足(6)式時停止迭代:
其中,τ是更新參數,設置為0,
變分模態分解的具體實現過程如下:
①初始化γ1與最大迭代次數N,n=0;
②對于每個模式Uk,根據式(3)和(4)更新得到
③根據式(5),更新γ,n=n+1;
④根據式(6)判斷收斂性:若不收斂且nN,則重復步驟②,否則停止迭代,得到最終模態函數Uk和中心頻率ωk;
變分模態分解應用于風速序列分解,性能主要受分解的模態函數個數K和拉格朗日乘子更新步長τ的影響,當K偏大,模態的ω會發生聚集甚至重疊,若K偏小,導致部分模態被分到鄰近的模態上,甚至被丟棄,更新步長τ的不同會導致不同程度的殘差出現,進而影響預測精度,因此根據中心頻率觀察法確定K和最小殘差準則確定τ,首先,計算和分析在不同K值下的分解模式的中心頻率,一旦出現類似的頻率,將此時的K確定為分解的最佳K,然后根據去噪時間序列和原始序列之間的均方根誤差(RMSE)優化更新參數τ,簡化為殘差評估指標(REI),REI計算公式為:
2)降維特征集(reducted feature set,RFS)生成
使用奇異值分解對原始特征集(original feature set,OFS)進行降維,生成的特征集可以保留原始特征集全部特征的部分信息,同時去除特征間相關性,已知訓練矩陣Am×n,表示m個樣本,n個特征,矩陣的秩為r,對矩陣A進行奇異值分解:
其中U和V分別表示正交陣,Λ為m×n的非負對角陣:
S1,…Sn是矩陣A的奇異值并且有S1S2…Sn,奇異值越大,其包含的信息越多,因此前h個主成分所組成的特征空間對應的新的矩陣A’:
A'm×h=U(:,1:h)×Λh×h (10)
其中U(:,1:h)為U中前h列向量對應的矩陣,Λh×h為前h個較大奇異值對應的對角矩陣,對于風速序列的預測,h的選取影響預測精度,因此基于不同奇異值的貢獻率確定最佳奇異值個數h,得到優化奇異值分解的參數;
貢獻率D公式為:
其中Si代表第i個奇異值對應的模型的平均絕對百分比誤差,Sj代表第j個奇異值對應的模型的平均絕對百分比誤差;
3)特征重要度計算
Gini指數是一種節點不純度的度量方式,能夠根據Gini指數作為評價指標來衡量每個特征在隨機森林中的每棵樹中預測貢獻,為降低filter特征選擇方法造成的低重要度特征的全部信息的損失,將使用特征降維方法奇異值分解得到的降維特征集與原始特征集組合,得到擴維特征集,計算該特征集中的全部特征的Gini重要度并排序,假設S是含有s個樣本的數據集,可分為n類,si表示第i類包含的樣本數i=1,2,..,n,則集合S的Gini指數為:
其中,Pi=si/s,代表任意樣本屬于第i類的概率,當S中只包含一類時,其Gini指數為0;當S中所有類別均勻分布時,Gini指數取最大值;隨機森林使用某特征劃分節點時,將S分為m個子集Sj,j=1,2,…,m,則S的Gini指數為:
其中,sj為集合Sj中樣本數,由式(13)可知,具有最小Ginisplit值的特征劃分效果最好;隨機森林(random forest,RF)在進行節點劃分時,首先計算候選特征子集中每一個特征分割該節點后的Ginisplit值,并用分割節點前節點的Gini指數減去該值,得到特征的“GiniImportance”,即Gini重要度;之后選擇Gini重要度最大的特征作為該節點的分割特征;在RF構建完成后,把同一特征的所有Gini重要度線性疊加并降序排列,即得到所有特征的重要度排序;
4)特征選擇
隨機森林結合了決策樹和Bagging思想的機器學習算法,通過重抽樣方法獲取多個樣本構造不同的決策樹模型,每棵決策樹分別進行預測,最后由投票得出最終預測結果,它是一個由多棵CART決策樹組成的預測器{p(x,Θk),d=1,2,...,dtree}的集合,其中x是輸入向量,{Θk}是獨立同分布的隨機向量,決定了單棵樹的生長過程;dtree為決策樹數;預測器{p(x,Θk)}由CART算法得到的完全生長并不進行剪枝操作的分類回歸樹;隨機森林的算法步驟為:
(1)采用重抽樣方法有放回的從原始數據集中隨機抽取d組新的自助樣本集,由CART算法建立d棵回歸樹,每次未被抽到的樣本形成d組袋外數據集;
(2)從具有M個特征的原始樣本集中隨機選取mtry個特征,并在這mtry個特征中挑選分類效果最好的一個特征用于該節點的分裂;
(3)每棵樹進行完全生長,不做剪枝操作;
(4)d棵回歸樹生長完全后形成隨機森林,最后對實驗數據進行預測;
參考序列前向搜索思想,在以擴維特征集訓練隨機森林得出不同風速特征Gini重要度的前提下,開展特征前向搜索策略,首先,按照Gini特征重要度降序排序的順序,將特征依次加入到候選特征集合中;每加入一個特征,候選特征集合作為輸入向量重新訓練一個隨機森林預測器,并計算相應的平均絕對百分比誤差值;之后,重復以上過程直至所有特征都加入到候選特征集合中;最后,將平均絕對百分比誤差值最小的模型對應的子集確定最優特征子集;
5)模型驗證
使用驗證集對步驟(4)中所得到的最優子集進行驗證,證明所得最優子集在短期風速預測中的有效性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北電力大學,未經東北電力大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910050602.0/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





