[發明專利]基于改進SVM的電力企業信息系統異常檢測方案的優化方法在審
| 申請號: | 201910721565.1 | 申請日: | 2019-08-06 |
| 公開(公告)號: | CN110472678A | 公開(公告)日: | 2019-11-19 |
| 發明(設計)人: | 陳昌嶺;徐立;劉飛鵬;鄭義林;陳施;靳玉晨;王超 | 申請(專利權)人: | 國家電網有限公司;國網安徽省電力有限公司天長市供電公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q50/06 |
| 代理公司: | 34120 合肥順超知識產權代理事務所(特殊普通合伙) | 代理人: | 謝永<國際申請>=<國際公布>=<進入國 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡性能指標 置信區間 電力信息系統 實時動態調整 參數優化 電力企業 基線參數 信息系統 性能評價 異常檢測 閾值計算 核函數 殘差 構建 改進 檢測 優化 | ||
1.基于改進SVM的電力企業信息系統異常檢測方案的優化方法,其特征在于,具體步驟如下:
第一步,了解SVM算法原理
支持向量機SVM的基本算法流程如下
首先根據分析對象特征設定初始樣本群體{xi,yj},i,j=1,2,…n;xi與yj分別為算法的n維輸入量和輸出量;
式(1)給出了SVM算法的基本函數形式
上式中為算法的特征映射函數,將其視為被測對象的回歸函數,將式(1)表述為
式(1)中的||ω||2為復雜度參數,用以描述f(·)的復雜度;C為懲罰系數,用以設定算法對錯誤分類的懲罰程度,從而提高全局最優解的存在概率;為經驗風險值,用來描述算法分類結果與真實結果之間的差值,其中ε為不靈敏損失函數,其作用等價于算法中的松弛變量,用以清除真實值在某范圍內的誤差,其滿足式(3)
|y-f(x)|ε=max{0,|y-f(x)|-ε} (3)
而經驗風險可描述為
通過式(3)和式(4)代入,可將式(2)轉變為
將拉格朗日乘子法用于上式,可將其轉變為對偶優化問題的求解,如式(6)所示
上式中,K(xi,xj)為核函數,這也是確定算法有效性的關鍵函數,尤其在針對線性不可分的數據進行SVM優化的過程中,必須根據被測對象的特征選取合適的K(xi,xj),目前常用的核函數有線性核函數、多項式核函數、Sigmoid核函數和高斯核函數等,此處選取高斯核函數,即高斯徑向基函數為例,如(7)所示
若其解以的形式給出,則代入式(7)后可得
其中的值為
將代入后,式(8)即轉變為以下形式
上式的求解即為二元分類問題的求解;
第二步,構建網絡性能指標模型
選取時間點序列作為監測和分析對象,在構建數據模型時,訓練集即樣本群中的每個個體均為時間序列中某一點上網絡性能的對應指標,傳統的建模方法是按照連續時間間隔的采樣得到初始訓練集,如式(11)所示
上式中,U和V分別為算法的輸入和輸出向量;t表示時間序列的末尾點;l表示元素數量;m表示嵌入維數;該方法缺點是基線和閾值的設定往往存在較大的滯后情況,無法對網絡中各種性能指標快速且頻繁變化狀況進行實時的分析與識別,這就導致了許多異常點沒有被及時檢出,最終使得監測系統經常出現誤報和漏報的情況;
在檢索了電力企業累積的大量網絡性能監測數據后發現,各個區域內網元的性能波動規律雖然在短時間內是無序的且隨機變化的,但在較長的監測周期內依然是遵循一定規律的,尤其在1d的時間單位內,同時間段的變化規律相似性極高,因此提出采用同點時間序列構建網絡性能變化模型的設計思路,即多日內同一時間點進行采樣的方式,以更好的貼合電力企業網絡性能的變化規律,如式(12)所示
上式中,U和V同樣為系統的輸入及輸出向量,t、l、m與式(11)設定相同,n為一日內時間點設定數量;根據電力企業信息傳輸異常事件的特征分析,當網絡出現異常點時,其造成的持續影響往往覆蓋了多個時間點,導致了評估結果的偏差;而在本模型中,所有的時間點均為分散的,時間點之間的間隔也并不固定,這就顯著的減少了異常點多發的時間段內的采樣次數,提高了系統異常檢測與評價方案穩定性與客觀性;
第三步,核函數的選擇及參數優化
在SVM算法中,起到關鍵影響作用的是核函數的選定與使用,針對電力企業網絡性能波動特點,選取高斯徑向基函數為SVM算法的核函數,在設置參數的過程中,最關鍵的兩個參數即為懲罰參數c和核函數參數g;對SVM算法的改進也主要體現在對這兩個參數的選定過程中,提出將參數尋優的工作分為兩步進行,并通過交叉驗證的方式快速逼近最優的c和g組合;
Step1,粗略尋優環節的驗證與分析
參數尋優采用中國臺灣林智仁教授研發的LibSVM軟件來完成,x、y軸分別表示c、g取以2為底的對數后的值,而選定參數后的SVM分類器輸出結果的準確率則通過z軸上的值來表示;利用LibSVM軟件中的SVMcgForClass函數進行計算,在粗略尋優環節中,參數c的估值區間確定為(2-4,24),隨機選擇為2.3965,而參數g則估值在(2-4,24)之間,隨機選定為4,將此組參數帶入SVM算法,實現對訓練集的二元化分類,通過大量的真實數據驗證,其結果的準確率略超過93%;
Step2,精細尋優環節的驗證與分析
在完成粗略尋優的基礎上,通過精細尋優環節進一步參數準確性,將參數c和g分別在其估值區間內執行離散化操作,隨后再次執行SVMcgForClass函數,進一步縮小了兩個參數的取值范圍,最終得到的最優參數組合為c=1.3272,g=1,將其分別帶入所述懲罰系數與核函數后,SVM分類器輸出結果的準確性上升至了95.58%,優化效果較為明顯;
第四步,置信區間的確定
在完成了參數優化的工作之后,即可根據訓練參差計算得到網絡性能指標在時間序列模型上的置信區間,為了提高算法的真實度,在確定置信區間的過程中添加高斯白噪聲干擾e~N(0,σ2)作為算法約束條件,并將其代入式(10)可得
考慮到樣本訓練集的規模足夠龐大,因此可將樣本方差近似等價與總體方差,簡化可得
由于高絲白噪聲是服從標準正態分布的,因此根據分位點α的定義可將上式轉變為
進一步推導得到
上式中的1-α即為根據被控對象預先設定的置信度,根據式(16)則可計算出給對應的閾值波動范圍,分別以選定置信度為95%和97%為例,前者通過檢索正態分布表,得z0.05/2=1.96≈2,對應的閾值波動范圍則為
后者同理查詢可得z0.03/2≈3,計算出閾值波動范圍為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家電網有限公司;國網安徽省電力有限公司天長市供電公司,未經國家電網有限公司;國網安徽省電力有限公司天長市供電公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910721565.1/1.html,轉載請聲明來源鉆瓜專利網。





