[發明專利]一種基于無監督學習的數據庫異常訪問檢測方法在審
| 申請號: | 201911010410.3 | 申請日: | 2019-10-23 |
| 公開(公告)號: | CN110866030A | 公開(公告)日: | 2020-03-06 |
| 發明(設計)人: | 汪秋云;王旭仁;羅蒙;方舟;王棟 | 申請(專利權)人: | 中國科學院信息工程研究所;國網浙江省電力有限公司信息通信分公司;國網電子商務有限公司 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 學習 數據庫 異常 訪問 檢測 方法 | ||
本發明公開了一種基于無監督學習的數據庫異常訪問檢測方法,其步驟包括:1)對于歷史審計日志中的各查詢記錄,分別提取每一查詢記錄中的特征并根據所提取的特征生成對應用戶的行為輪廓;2)對各用戶的行為輪廓進行聚類,并將聚類的結果標記為對應用戶的用戶組別;3)利用標記了用戶組別的行為輪廓進行訓練,得到異常檢測模塊;4)對于用戶提交到數據庫的一查詢語句,提取該查詢語句中的特征;根據所提取的特征生成該用戶的行為輪廓并將其輸入到訓練后的異常檢測模塊中進行檢測,確定是否為異常訪問。本發明極大地提高了異常訪問的檢測速度。
技術領域
本發明使用了無監督聚類的方法對用戶角色進行標注,同時利用分類算法訓練異常檢測器。具體而言,就是在基礎的數據庫異常檢測模型中加入了聚類模塊,在異常檢測器的訓練階段對用戶行為輪廓進行聚類,并將聚類的結果作為用戶組別加入到異常檢測器的訓練中。
背景技術
聚類是一種運用廣泛的探索性數據分析技術,直觀上講,聚類是一項將對象進行有意義分組的任務,使相似的對象歸為一類,不相似的對象歸為不同類。由于對象間的距離(或相似性)有多種隱式的定義,給定一個數據集,可以有多種不同的聚類解決方案。但是,聚類分類任務在實際情況下是存在問題的:一個是對不同對象而言相似性不存在傳遞性,也就是說,雖然聚類共享具有等價關系甚至傳遞關系,但其相似性是不具傳遞性的,這就導致對一個對象序列而言,可能所有相鄰元素之間都非常相似,但頭元素與尾元素的相似度卻相差甚遠;另一個問題則是無監督學習所共有的問題,即聚類缺乏實際情況,也就是說,我們無法預測標簽,因此我們沒有明確的聚類評估過程。
聚類算法中應用最廣泛的一種算法是k-means聚類。文獻1(Han Jiawei,KamberM,Pei Jian,等.數據挖掘:概念與技術.范明,孟小峰,譯.3版.北京:機械工業出版社,2012:293-294)認為從幾何上看,k-means算法的主要思想是將一個數據集按照數據點的空間分布分為幾個簇,使得簇內數據點的距離接近而簇與簇之間相聚較遠。k-means聚類算法的現實意義是將數據按照其屬性的相似度進行分組,但存在一定的局限性,在算法開始時對簇數目k和初始聚類中心點的選擇將會影響最終的聚類效果。
決策樹算法模型是一種非參數型的分類器,是分類模型中應用最廣泛的算法之一。決策樹算法模型的構建一般包括三個步驟:屬性選擇、決策樹生成和剪枝。決策樹算法的關鍵在于如何在生成樹的過程中選擇最優的劃分屬性作為子節點。根據屬性選擇標準的不同,決策樹算法分為ID3、C4.5、CART等。ID3算法的核心是在決策樹各個節點上應用信息增益準則選擇特征遞歸地構建決策樹。C4.5算法與ID3算法很相似,對ID3算法做了改進,在生成決策樹過程中采用信息增益比來選擇特征。相比ID3和C4.5,CART(Classificationand Regression tree)應用要多一些,既可以用于分類也可以用于回歸,CART分類時,使用基尼指數(Gini)來選擇最好的數據分割的特征,Gini描述的是純度,與信息熵的含義相似。
文獻2(Tin Kam Ho.Random decision forests.1995)指出決策樹算法計算速度快、準確率高,但在分類過程中容易出現過擬合現象。而早在1994年由Leo Breiman提出的Bootstrap Aggregating算法,可以提高統計分類器和回歸器的穩定性和準確度,幫助模型避免過擬合。因此文獻2結合了Bootstrap Aggregating算法和決策樹算法生成一種新的分類算法:隨機森林算法。
隨機森林算法是一種集成式決策樹分類器,由多個決策樹組合而成。隨機森林算法改進了決策樹構建過程中的屬性選擇方式,由遍歷所有屬性特征取最優,改為隨機選取k個屬性計算其信息增益。其主要思想是從訓練集中隨機抽取n個樣本,再從特征集中隨機抽取k個屬性構造決策樹;重復多次得到的決策樹集合就是隨機森林模型。隨機森林運用的隨機思想能避免決策樹可能出現的過擬合,提高了決策樹的泛化能力;隨機森林的結構可以并行實現,增強了決策樹的可擴展性。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所;國網浙江省電力有限公司信息通信分公司;國網電子商務有限公司,未經中國科學院信息工程研究所;國網浙江省電力有限公司信息通信分公司;國網電子商務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911010410.3/2.html,轉載請聲明來源鉆瓜專利網。





