[發明專利]一種基于機器學習的電力工控攻擊分類方法和系統有效
| 申請號: | 201811237515.8 | 申請日: | 2018-10-23 |
| 公開(公告)號: | CN109446635B | 公開(公告)日: | 2023-05-05 |
| 發明(設計)人: | 韓麗芳;朱朝陽;徐文淵;應歡;周亮;繆思薇;歐陽軒;邱意民;余文豪;冀曉宇;龐鋮;程斌 | 申請(專利權)人: | 中國電力科學研究院有限公司;國家電網有限公司;浙江大學;國網浙江省電力有限公司 |
| 主分類號: | G06F18/2431 | 分類號: | G06F18/2431;G06F18/214;H04L9/40 |
| 代理公司: | 北京工信聯合知識產權代理有限公司 11266 | 代理人: | 胡秋立 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 電力 攻擊 分類 方法 系統 | ||
本發明提供一種基于機器學習的電力工控攻擊分類方法和系統。所述方法和系統利用電力工控的歷史報文數據,通過對所述數據進行缺省值補全、特征變量提取后,輸入隨機森林模型進行多折交叉驗證,并根據隨機森林模型是否發生過擬合和/或欠擬合現象對模型參數進行調整發確定最優隨機森林模型來對電力工控攻擊進行分類。所述方法和系統與現有技術相比,通過采集電力工控歷史報文數據進行機器學習,搭建隨機森林模型,通過將電力工控系統生成的報文導入所述隨機森林模型中來實現對電力工控攻擊的分類,改善了工控系統防御被動的現狀,使系統在遭受攻擊之前即能檢測、截獲攻擊,提高了電力工控系統的安全性能。
技術領域
本發明涉及智能電網安全領域,并且更具體地,涉及一種基于機器學習的電力工控攻擊分類方法和系統。
背景技術
在智能電網中,電力工業控制系統是支撐發、輸、變、配、用以及調度等各環節的電力生產運行控制不可或缺的組成部分,是國家關鍵基礎設施的重要組成部分,不僅涵蓋電力監控系統(包括調度、電廠、變電站、配電自動化系統),還涉及到用戶側及開放環境中的分布式電源、用電信息采集等系統,一旦遭受破壞,會對國家和社會安全造成嚴重威脅。隨著信息技術的深入應用以及國內外安全形式的發展變化,電力工控系統面臨的安全威脅不容忽視。隨著電力系統自動化程度的快速提升,針對電力工控系統的攻擊種類越來越多樣,但是目前國內在此領域的研究尚未成熟。
因此,需要一種技術,能夠快速對電力工控系統的攻擊進行分類,以提高電力工控系統的安全性能。
發明內容
為了解決現有技術中對電力工控系統的攻擊進行分類的研究尚未成熟的技術問題,本發明提供一種基于機器學習的電力工控攻擊分類方法,所述方法包括:
基于樣本集D計算第一特征、第二特征以及第三特征中每個特征變量的信息增益,并對所有特征變量的信息增益從大到小進行排序,選取信息增益的值在前t位的特征變量作為訓練隨機森林模型的特征變量,其中,所述第一特征是電力工控報文的TCP連接基本特征,所述第二特征是電力工控報文的TCP連接內容特征,所述第三特征是基于電力工控報文的第一特征和第二特征確定的表征電力工控攻擊特點的特征,所述樣本集D是電力工控報文數據的集合,所述數據包括預先采集的第一特征和第二特征中每個特征變量的數據,以及根據第一特征和第二特征的特征變量計算確定的第三特征的特征變量的數據;
設置隨機森林模型的參數,搭建隨機森林模型,其中,所述參數包括森林中樹的數量,放回采樣,節點分裂所需的最小樣本值,葉子節點最小的樣本權重,隨機森林劃分考慮的最大特征數以及樹的深度;
基于樣本集D′對所述隨機森林模型進行多折交叉驗證以確定模型參數達到最優化時的最優隨機森林模型,并通過所述最優隨機森林模型確定電力工控攻擊報文的攻擊種類,其中,所述樣本D′是從樣本集D中選取的訓練隨機森林模型的特征變量的數據生成的數據集合,所述模型參數達到最優化是指所述隨機森林模型的訓練未發生過擬合和/或欠擬合時確定的參數。
進一步地,所述方法在基于樣本集D計算第一特征、第二特征以及第三特征中每個特征變量的信息增益之前還包括:
采集電力工控報文第一特征和第二特征中每個特征變量的數據,生成數據集N,其中,所述數據集N的數據行數為m,數據列數為n,總標簽數為l,所述行數是采集的電力工控報文的條數,所述列數是每一條電力工控報文中第一特征和第二特征中每個特征變量的特征值,總標簽數是電力工控攻擊總的種類數,所述第一特征的特征變量包括源IP地址,目的IP地址,連接持續時間,協議類型,目標主機的服務類型,連接正常或錯誤的狀態,從源主機到目標主機的數據的字節數,從目標主機到源主機的數據的字節數,連接是否來自/送達同一主機/端口的屬性值和錯誤分段的數量,第二特征的特征變量包括訪問系統敏感文件和目錄的次數,登陸嘗試失敗的次數;登陸是否成功的屬性值,登陸是否為guest的屬性值;
根據所述數據集N中缺省值的類別,對所述缺省值進行補全,其中,所述缺省值分為屬性變量和數值變量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電力科學研究院有限公司;國家電網有限公司;浙江大學;國網浙江省電力有限公司,未經中國電力科學研究院有限公司;國家電網有限公司;浙江大學;國網浙江省電力有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811237515.8/2.html,轉載請聲明來源鉆瓜專利網。





