[發明專利]一種電力CPS廣義虛假數據注入攻擊識別方法有效
| 申請號: | 202011594028.4 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112699936B | 公開(公告)日: | 2022-06-28 |
| 發明(設計)人: | 曹杰;王達;曲朝陽;郭曉利;奚洋;王蕾 | 申請(專利權)人: | 東北電力大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q50/06 |
| 代理公司: | 吉林市達利專利事務所 22102 | 代理人: | 陳傳林 |
| 地址: | 132012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電力 cps 廣義 虛假 數據 注入 攻擊 識別 方法 | ||
1.一種電力CPS廣義虛假數據注入攻擊識別方法,其特征是,它包括的內容有:
1)信息物理融合數據平衡化處理方法
信息物理融合數據的平衡化處理由提出的中心化KMeans-Smote過采樣算法實現,首先計算數據集的不平衡率,當不平衡率低于50%時,執行過采樣操作;然后明確各個待過采樣類別生成的偽樣本數量,求取各個類別樣本平均數,將樣本數量低于平均值的類別過采樣至和平均值持平,不斷循環上述過程,直至少數類樣本數量和樣本數量最多的類別的樣本數量相等,從而明確各過采樣階段各少數類別生成的偽樣本數量;最后執行過采樣操作,過采樣過程共分為聚類、過濾和線性插值三個階段;
(1)聚類階段,基于KMeans聚類算法將少數類樣本在樣本空間內聚類成n個簇,并為各個簇分配權重,分派原則為簇內樣本數量多的簇的權重低,反之權重高,分配的權重決定該簇內生成的偽樣本數量,權重越高,生成的偽樣本數量越多,各簇在過采樣過后包含的總樣本數量大致相等,從而實現了類內的離散度平衡;
(2)過濾階段,對于少數類樣本,在樣本空間內將孤立的、且和其他類別樣本分類邊界混淆不清的樣本過濾掉,過濾掉的樣本在過采樣階段不參與線性插值操作,即算法不會依據噪聲樣本生成偽樣本,從而實現降噪處理;
(3)采樣階段,針對聚類所生成的各個簇,依次隨機選擇一個簇心,選取和簇心距離最近的k個近鄰樣本,在這些近鄰樣本中隨機選擇一個樣本和所屬的簇的簇心之間進行線性插值,生成一個偽樣本,循環上述步驟,直到所有簇中的偽樣本和步驟(1)中確定的權重約束相符,結束過采樣操作,將所有過采樣得到的偽樣本以及步驟(2)中過濾掉的樣本加入到原始數據集,得到平衡數據集,實現數據集的平衡化處理;
2)GFDIA識別最優特征子集確定方法
GFDIA識別最優特征子集的確定由最大化聯合互信息(Joint Mutual InformationMaximization,JMIM)特征選擇算法實現,算法的輸入是原始信息物理融合特征集F={f1,f2,...,fN},數據維數為N,輸出為算法迭代選擇的k個特征構成的GFDIA識別最優特征子集,其中k≤N;
3)基于改進深度森林的GFDIA識別器構建方法
一個深度森林算法的核心包含細粒度特征提取和級聯森林兩部分,
①細粒度特征提取:對于一個維度為P的樣本,通過一個長度為k的采樣滑動窗口,設滑動窗口的長度為λ,得到S=(P-k)/λ+1個k維特征子樣本向量,每個采樣子樣本用來訓練第一層的基分類器,并在每個基分類器都獲得一個長度為C的概率向量,最后把所有基分類器獲得的概率向量以及原始特征拼接在一起得到特征提取結果;
②級聯森林:深度森林算法采用一種級聯結構對細粒度特征提取的結果進行逐層處理,每一級聯層都將上一層的輸出作為本層的輸入,并將本層的特征處理結果輸出到下一層,最終層將前面的級聯層的預測結果求平均值得到最終預測值,從而加強算法的表征學習能力;
為了提升深度森林算法對GFDIA的辨識精度,并降低過擬合的風險,對級聯層結構進行改進,具體改進方案如下:
每個級聯層配置6個基分類器,每個分類器都是基于決策樹的集成學習算法,6個集成學習算法依次為Xgboost(EXtreme Gradient Boosting),隨機森林(Random Forest),Lightgbm(Light Gradient Boosting Machine),極端森林(Extremely RandomizedTrees),梯度提升決策樹(Gradient Boosting Decision Tree),以及Adaboost(AdaptiveBoosting)算法,各基分類器都是基于決策樹的集成學習算法,學習機制也不完全相同,不同基分類器之間的差異性提升了深度森林在迭代過程中學習性能,改進后的深度森林算法即為GFDIA識別器;
4)得到電力CPS廣義虛假數據注入攻擊識別模型
(a)基于步驟1)提出的中心化KMeans-Smote過采樣方法對含標注的電力信息物理融合數據進行過采樣處理,得到平衡化信息物理融合數據集;
(b)基于步驟2)提出的GFDIA識別最優特征子集確定方法,在信息物理融合的平衡數據集中提取GFDIA識別最優特征子集,實現數據的降維和去冗余處理;
(c)將操作(b)得到的GFDIA識別最優特征子集劃分為訓練集和測試集,劃分比例為1:1,訓練集用來供模型的訓練,測試集供模型的評估測試;
(d)按照步驟3)的改進方案配置級聯層,采用訓練集訓練改進的深度森林分類器,得到電力CPS廣義虛假數據注入攻擊識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北電力大學,未經東北電力大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011594028.4/1.html,轉載請聲明來源鉆瓜專利網。





