[發明專利]一種基于K-means集群算法的攻擊源特征識別方法在審
| 申請號: | 202011280792.4 | 申請日: | 2020-11-16 |
| 公開(公告)號: | CN112685459A | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 呂華輝;楊航;劉家豪;張華兵;陳華軍;明哲;鄒洪;劉欣;楊逸岳 | 申請(專利權)人: | 中國南方電網有限責任公司;南方電網數字電網研究院有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/27;G06F16/28;G06F16/182;G06K9/62;G06N20/00 |
| 代理公司: | 廣州知友專利商標代理有限公司 44104 | 代理人: | 周克佑 |
| 地址: | 510623 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 means 集群 算法 攻擊 特征 識別 方法 | ||
1.一種基于K-means集群算法的攻擊源特征識別方法,其特征在于包括如下步驟:
A.大數據的采集:通過分布式部署的安全事件采集器高速采集安全事件,采集器對采集到的原始安全數據和事件進行預處理,包括泛化、過濾和歸并,并將其發送至大數據態勢感知預警平臺;
B.大數據的存儲:大數據態勢感知預警平臺使用關系數據庫和分布式文件系統保存收到的結構化的事件和原始事件,通過分布式存儲節點,將其保存至分布于平臺中各節點中的文件系統中,并通過專用的數據庫適配工具實現結構化數據和非結構化數據的轉換;其中,所述分布式文件系統采用冗余式保存技術,實現了安全數據的安全存儲,每個節點上的數據都在其他節點上有備份,一旦節點損壞,系統會重新分配數據;
C.大數據的分析:大數據態勢感知預警平臺還設置有安全事件分析模塊對大數據進行安全分析,并輸出分析報告,所述安全事件分析模塊包括基于特征的、基于行為的、基于機器學習和統計學的三個分析單元;
其中,所述基于特征的分析單元采用了基于CEP的流式計算框架自動地對采集來的網絡數據進行實時和歷史分析,具體包括將所有的關聯規則都預編譯為CQL(ContinuousQuery Language,持續查詢語言),送入CEP引擎,對實時事件流進行模式匹配;其中,所述模式匹配模型采用不確定有限狀態機(Nondeterministic Finite Automata,NFA)結合RETE算法,通過基于特征的規則關聯分析引擎,識別已知模式的攻擊和違規的其他操作數據;
其中,所述基于行為的分析單元采用基于異常檢測的主動分析模式,建立被觀測對象正常基準行為,通過對實時活動與基準行為的對比來揭示可疑的攻擊活動,具體包括動態基線分析過程和預測分析過程;
所述動態基線分析過程,采用周期性基線分析的方法,根據歷史數據計算得出,通常是一個單周期數據庫輪廓線,這條曲線由若干數據輪廓點組成,每個輪廓點代表一個采樣時點,一個新的實際測量值如果沒有超過基線范圍,則通過加權平均算法更新舊的輪廓值,如果新的實際測量值超過基線范圍則丟棄,不參與新輪廓值計算;如此往復循環,基線始終處于動態變化中;
所述預測分析過程,采用基于時間窗置信區間的檢測模型,在實際運行中不斷自我調整和逼近,自動剔除歷史時間窗內的異常歷史數據,實現歷史時間窗數據與網絡實際正常流量行為特征的高度吻合,從而提高了對異常行為報警的準確性;
其中,所述基于機器學習和統計學單元,具體采用Map/Reduce的方法將復雜的統計和計算分配給各個節點處理,各個節點計算完成將結果匯總至主節點,完成復雜的計算過程,其中的統計分析包括在特定的時間周期內從多個維度對事件進行統計,獲得包括均值、標準差的統計數據,計算一段時間的行為基線,通過置信區間的設置,發現超出正常行為基線的異常安全事件;
其中的機器學習算法包括決策樹、數理統計、假設檢驗,通過對一定時間周期內的安全事件的多維度進行學習,建立正常的基線,通過分析安全事件的特征值與基線的偏差,超出置信區間的事件會作為異常事件,并可對安全趨勢進行預測;
所述基于機器學習和統計學單元還實現對異常的數據集進行攻擊源特征識別,所述攻擊源特征識別過程如下:
第一步:連接數據庫,從數據庫中選擇需要進行特征識別的數據;
第二步:對數據進行標準化的判斷,判斷數據是否滿足特征識別處理的要求,如果數據滿足要求則進行下一步的處理,如果數據不滿足要求則必須將數據進行標準化處理之后才能進行下一步的特征識別處理;
第三步:對數據進行特征識別處理和分析處理之后輸出異常的數據集合,形成攻擊源特征識別分析報告;
其中,第三步中對數據進行特征識別處理具體包括如下內容:
(3.1)從第一步獲取并分析數據集C,計算數據集中每一個數據對象的距離和Si、距離均和W;
(3.2)在整個數據集內部的數據對象i,如果SiW,那么這個數據集內的點就會認為是孤立點,不作為計算對象;
(3.3)將數據集C中的孤立點分離出來,然后刪除孤立點,這樣得到消除孤立點之后的樣本集合C’,得到C’之后再計算C’中樣本的總數n;
(3.4)計算k的值,k初始值為k=n^0.5;
(3.5)將樣本集合C’輸入到k-means算法,通過運算得到k個聚類;
(3.6)通過k-means算法分別計算算法中各個參數的值;
(3.7)如果兩個聚類中的任意兩個子集滿足聚類條件,則將這兩個子集合并成一個聚類,同時將k的值減1,并輸出k的值;
(3.8)通過計算C’中任意兩點的距離D,并找出C’距離最近的兩個樣本數據,找出這兩個樣本數據將這兩個樣本數據放入集合Cm,之后從C’中刪除這兩個樣本數據;
(3.9)重復步驟(3.1)-(3.8),直到集合Cm內的樣本數據數目m≥an/k(0≤a≤1),較佳的取值為a≈0.75;
(3.10)這樣最終就形成了k個集合,這時計算C’中的樣本數據算數平均值,形成k個聚類中心;
(3.11)重復以上步驟,每次計算后更新數據對象的平均值,直到平均值不再發生變化,結束特征識別過程,形成最后k個聚類中心的特征識別報告。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國南方電網有限責任公司;南方電網數字電網研究院有限公司,未經中國南方電網有限責任公司;南方電網數字電網研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011280792.4/1.html,轉載請聲明來源鉆瓜專利網。





