[發明專利]基于改進CURE聚類算法的無監督異常檢測方法和系統無效
| 申請號: | 200910027374.1 | 申請日: | 2009-05-31 |
| 公開(公告)號: | CN101561878A | 公開(公告)日: | 2009-10-21 |
| 發明(設計)人: | 李繼國;徐晨 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;H04L29/06 |
| 代理公司: | 南京經緯專利商標代理有限公司 | 代理人: | 許 方 |
| 地址: | 21004*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進 cure 算法 監督 異常 檢測 方法 系統 | ||
技術領域:
本發明涉及一種異常檢測技術,尤其涉及一種基于改進CURE聚類算法的無監督異 常檢測方法以及基于該方法的系統,屬于計算機數據安全技術領域。
背景技術:
近年來,隨著計算機技術的不斷發展,網絡規模的不斷擴大,入侵行為已經越來越 嚴重的威脅到了計算機系統和網絡的安全。入侵就是未經授權蓄意嘗試訪問信息、竄改 信息,使系統不可靠或不能使用。由于入侵方式越來越多樣化,手段越來越先進,傳統 的靜態安全技術如:防火墻、數據加密技術等,已經無法滿足系統和網絡的安全性需求。
入侵檢測技術作為一種重要的動態安全技術,很好地彌補了靜態安全技術的不足。 入侵檢測技術主要分為兩類:誤用入侵檢測和異常入侵檢測。誤用入侵檢測是指利用已 知系統和應用軟件的弱點攻擊模式來檢測入侵。由于該技術主要是依賴于已知的系統缺 陷和入侵,所以可以準確的檢測到已知的入侵,但無法檢測到系統未知的攻擊行為。異 常入侵檢測是指能夠根據異常行為和使用計算機資源情況檢測出來的入侵。異常入侵檢 測試圖用定量方式描述可接受的行為特征,以區分非正常的、潛在的入侵性行為。該方 法可以檢測未知的入侵行為,但是由于描述的可接受行為特征可能與實際情況偏差較大 導致檢測的準確性不高。
在異常入侵檢測中,一般都要根據正常行為數據集建立一個正常行為模型來描述可 接受的行為特征。但是實際上,要獲取純凈的正常行為數據集是很困難的,并且代價是 高昂的。為了解決這個問題,人們提出了無監督異常檢測的方法。該方法不依賴于已標 記的數據,所以不需要人工或其他方法對訓練集進行分類,大大提高了入侵檢測系統的 實用性。無監督異常檢測主要基于以下兩個假設:第一個假設為正常行為數據量要遠遠 超過入侵行為數據量;第二個假設為正常行為數據與非正常行為數據之間的差異很大。 第一個假設為識別正常簇與非正常簇提供了依據,基于第二個假設可以認為通過聚類能 將正常行為數據與非正常行為數據很好分類。
近年來,無監督異常檢測已成為入侵檢測領域中的熱點,該領域的研究工作者試著 將數據挖掘和機器學習中的方法應用于無監督異常檢測,目前已經取得了一定的進展。 Jiang、Song等人提出了一種新的無監督聚類檢測方法CBUID,該方法在標記簇時考慮 了簇的偏離程度(the?deviation?degree),并且在聚類時使用了INN(improved?nearest neighbor)算法,該算法有效的提高了聚類的質量。Eskin等人提出了一個無監督異常 檢測的幾何框架。該框架將未標記的數據映射到特征空間,如果數據點在特征空間的稀 疏區域中,則判斷該點為異常點。Leung和Leckie提出了一種基于密度和網格的聚類 算法fpMAFIA。該算法基于pMAFIA算法并通過FP樹對其進行優化。他們將fpMAFIA算 法用于無監督異常檢測中,實驗表明取得了良好的效果。但是,這些無監督異常檢測 方法所使用的聚類算法有的因為不能對任意形狀的簇聚類,導致建立的正常行為模型不 理想,從而影響了檢測效果。基于密度的聚類算法、神經網絡的算法雖然可以對任意形 狀的簇聚類,但是在處理含有大規模數據量的訓練集時要耗費大量時間,使得正常行為 模型得不到及時的更新,導致網絡或主機狀況發生改變時不能很好的檢測入侵行為。
發明內容:
本發明的目的是基于上述現有技術的缺陷,提供一種新的異常檢測方法及基于該方 法的監測系統,本發明能夠高效的檢測出入侵行為。
根據本發明的目的,采用如下技術方案:
本發明的基于改進CURE聚類算法的無監督異常檢測方法,包括步驟:
A:通過改進的CURE聚類算法對訓練集進行聚類,將異常行為數據與正常行為數據 分類,生成簇集;
B:根據事先估計的正常數據所占整個數據集的百分比對簇集進行標記;
C:根據標記為正常行為的簇進行建模,其建模算法為基于超矩形的建模算法;
D:將待檢測數據與正常行為模型進行對比,判斷是否為異常數據。
本發明的基于改進CURE聚類算法的無監督異常檢測方法,在步驟A中,改進的CURE 算法是以原有CURE聚類算法的基礎,將其聚類停止條件改為相鄰最近的兩個簇間距離 大于某個閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910027374.1/2.html,轉載請聲明來源鉆瓜專利網。





