[發明專利]一種基于相似性搜索的組合模型預測水位的方法有效
| 申請號: | 201510360109.0 | 申請日: | 2015-06-25 |
| 公開(公告)號: | CN105046321B | 公開(公告)日: | 2018-01-19 |
| 發明(設計)人: | 張鵬程;肖艷;馬輝;孫穎桃;韓晴;曾金偉 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06N3/02 | 分類號: | G06N3/02;G06K9/62;G01F23/00 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙)32204 | 代理人: | 李玉平 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 相似性 搜索 組合 模型 預測 水位 方法 | ||
1.一種基于相似性搜索的組合模型預測水位的方法,其特征在于,包括:
a)數據預處理模塊:包括處理空缺和錯誤數據;填補空缺數據時按照空缺數據的種類分為四種,分別進行不同的填補操作;修正錯誤數據時,首先通過3σ準則判斷出錯誤數據,然后根據錯誤數據的特征按照填補空缺數據的方法進行修正;
b)確定待匹配序列模塊:利用相關系數從待預測日前幾日的水位中挑選出與待預測日相關的連續幾日水位作為待匹配序列;
相關系數計算公式如公式(1)所示:
xi代表前i年與待預測日前一日同期的水位,yi代表前i年與待預測日同期的水位,代表這n年待預測日前一日同期水位的平均值,代表這n年待預測日同期水位的平均值,r就是x與y的相關系數;
c)相似性搜索模塊:將待預測日前的往年歷史水位時間序列作為待搜索序列,利用動態彎曲距離從待搜索序列中查找與待匹配序列距離大于閾值的一系列序列,將這些序列及其后一日水位從訓練集中剔除,剩下的序列將作為降維后的訓練集輸入到組合預測模型中;
相似性搜索模塊執行流程包括如下步驟:
步驟101,確定好待匹配序列后,將待預測日前的往年歷史水位時間序列作為待搜索序列,將這兩個序列進行Min-Max標準化,將數據映射到[0,1]之間,標準化公式如(2)所示,其中max代表數據中的最大值,min代表數據中的最小值,x是原始時間序列,x’是標準化后的時間序列:
步驟102,確定滑動窗口的長度為待匹配序列的長度,起始位置為所使用的歷史數據的起始時間;
步驟103,對于兩個時間序列X={x1,x2,…,xn}與Y={y1,y2,…,yn},其中n為待匹配序列的長度,建立X與Y之間的距離矩陣D,其中d(xi,yj)代表的是xi與yj之間的距離:
步驟104,計算動態彎曲距離填充矩陣,并標記對應序列的起始終止時間;其中計算公式如下:
步驟105,判斷滑動窗口的末尾是否到達了待預測日的前一日,如果沒有則將滑動窗口向后移一位繼續步驟104,否則向下執行步驟106;
步驟106,比較得出大于閾值的距離,并記錄對應的起始終止時間;
d)組合預測模型模塊:組合預測模型有兩個基本模型,分別是基于LM算法改進的BP神經網絡模型以及支持向量機模型;分別將訓練集輸入到這兩個模型中進行訓練,確定好模型后,將待匹配序列的水位分別輸入這兩個基本模型,得到兩個模型的預測值;然后根據貝葉斯定理,根據這兩個基本模型上一時刻的預測表現分別賦予它們權重,最后的預測值則是兩個基本模型的預測值分別乘以它們各自的權重后相加的結果;
基于LM算法改進的BP神經網絡訓練流程包括如下步驟:
步驟201,初始化網絡的權值閾值,并給定訓練允許誤差ε,以及常數μ0和β,0<β<1,令k=0,μ=μ0,其中k是指第k次迭代,μ是用戶定義的學習率;
步驟202,針對第k次迭代求出對應的輸出以及誤差指標函數E(w);
其中,y是期望的輸出,是實際的輸出,P是樣本總數,w是權值和閾值組成的向量,e(w)是誤差;
步驟203,判斷此時的訓練誤差是否小于允許誤差ε,若是則訓練結束,模型確立即進入步驟205,否則進入下一步驟204,利用LM算法調整網絡的權值和閾值;
步驟204,利用LM算法調整網絡的權值和閾值的步驟如下:
1)計算Jacobian矩陣:
其中,N是神經網絡的層數減一,n是每一層的神經元個數即權值和閾值的總數;
2)計算權值增量Δw:
Δw=[JT(w)J(w)+μI]-1JT(w)e(w)(7)
其中,I是單位矩陣;
3)以wk+1=wk+Δw作為新一次迭代的權值和閾值向量,計算E(wk+1),若E(wk+1)<E(wk),則令k=k+1,μ=μβ,繼續步驟202,否則μ=μ/β,繼續步驟2);
步驟205,訓練結束,模型確立。
2.如權利要求1所述的基于相似性搜索的組合模型預測水位的方法,其特征在于,數據預處理方法為:根據水文水位數據的特性,空缺數據可以分為四種:數據連續缺失超過15天、連續缺失8-15天、連續缺失4-7天和連續缺失低于4天;第一種情況則刪除當月的記錄,第二種情況利用前后各兩年的同期歷史水位的平均值代替,第三種情況用當月的平均值填補,第四種用近一周的平均值補充;對于錯誤數據的修正,首先根據3σ準則判斷出錯誤數據,99.74%的正確數據都在區間(μ-3σ,μ+3σ)內,其中μ是數據的平均值,σ是數據的標準差,那么在這個區間范圍外的就有理由認為是錯誤數據了,找出錯誤數據后,判斷出它們屬于上述四種情況的哪一個,再進行修正。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510360109.0/1.html,轉載請聲明來源鉆瓜專利網。





