[發(fā)明專利]一種海量安全日志信息過濾方法及裝置在審
| 申請?zhí)枺?/td> | 201810642159.1 | 申請日: | 2018-06-21 |
| 公開(公告)號: | CN109101527A | 公開(公告)日: | 2018-12-28 |
| 發(fā)明(設(shè)計(jì))人: | 亞靜;柳廳文;李全剛;張盼盼;時(shí)金橋 | 申請(專利權(quán))人: | 中國科學(xué)院信息工程研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/04;H04L29/06 |
| 代理公司: | 北京君尚知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11200 | 代理人: | 司立彬 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 灰度數(shù)據(jù) 特征序列 安全日志 標(biāo)注 向量表示 向量 信息過濾 過濾 日志信息 異常檢測 | ||
本發(fā)明公開了一種海量安全日志信息過濾方法及裝置。本方法為:1)提取安全日志信息的特征序列;2)根據(jù)黑白名單對所述特征序列進(jìn)行標(biāo)注,利用標(biāo)注好的特征序列訓(xùn)練向量表示模型;其中,將根據(jù)黑白名單無法標(biāo)注的特征序列稱為灰度數(shù)據(jù);3)利用訓(xùn)練好的向量表示模型,對所述灰度數(shù)據(jù)進(jìn)行向量表示,得到各所述灰度數(shù)據(jù)對應(yīng)的向量;4)計(jì)算每一所述灰度數(shù)據(jù)i對應(yīng)的向量與各標(biāo)注為白名單的特征序列對應(yīng)的向量之間的距離d;如果該距離d小于設(shè)定閾值,則過濾掉所述灰度數(shù)據(jù)i對應(yīng)的安全日志。本發(fā)明能夠在小規(guī)模黑白名單基礎(chǔ)上實(shí)現(xiàn)大規(guī)模正常日志信息的過濾,提升了異常檢測的效率。
技術(shù)領(lǐng)域
本發(fā)明涉及信息安全領(lǐng)域,尤其涉及一種海量安全日志信息過濾方法及裝置,本發(fā)明突破傳統(tǒng)基于黑白名單匹配的限制,學(xué)習(xí)安全日志信息的向量表示,通過距離對日志信息進(jìn)一步過濾,從而解決數(shù)據(jù)量過大造成的分析困難等問題。
背景技術(shù)
安全日志,包括DNS流量日志、WEB日志和防火墻日志等,為服務(wù)器、防火墻記錄了必要的、有價(jià)值的信息,對安全隱患與異常的發(fā)現(xiàn)是十分重要的。然而,系統(tǒng)的審計(jì)日志數(shù)據(jù)量十分龐大,數(shù)據(jù)分析和處理非常困難,并且大部分?jǐn)?shù)據(jù)為正常數(shù)據(jù)。因此,如何從海量日志信息中過濾掉大部分正常數(shù)據(jù),提取出最有可能包含異常記錄的日志信息以縮減待分析的數(shù)據(jù)量,對異常檢測和攻擊的發(fā)現(xiàn)是十分重要的。傳統(tǒng)的過濾方法大多通過與黑白名單(包括域名黑名單)或已知規(guī)則模式庫的匹配或比較,來過濾掉正常的數(shù)據(jù)。常見的黑白名單有:MmalwareDomainList和DNS-BH提供的域名黑名單、Alexa提供的域名白名單;Malicious Web Site Labs提供的惡意域名與IP黑名單(http://dn-mwsl-hosts.qbox.me/hosts.txt);Github上提供的一些Webshell規(guī)則模式和黑名單等。
隨著網(wǎng)絡(luò)通信技術(shù)的發(fā)展,部署在網(wǎng)絡(luò)環(huán)境中的設(shè)備和服務(wù)越來越多,對“海量”網(wǎng)絡(luò)日志信息分析進(jìn)而發(fā)現(xiàn)異常是十分困難的。目前基于黑白名單和規(guī)則模式的過濾方法在一定程度能夠縮減待分析的數(shù)據(jù)量,但受限于黑白名單的規(guī)模和質(zhì)量以及規(guī)則的完備性,過濾效果仍不十分理想,得到的灰度數(shù)據(jù)量仍然很大,不利于后續(xù)的分析與檢測工作。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種安全日志信息過濾方法及裝置,突破黑白名單完備性和時(shí)效性的限制,在海量日志信息下過濾掉大規(guī)模正常數(shù)據(jù),從而解決日志數(shù)據(jù)量過大造成的分析困難的問題。
本發(fā)明的技術(shù)方案為:
一種海量安全日志信息過濾方法,其步驟包括:
1)提取安全日志信息的特征序列;
2)根據(jù)黑白名單對所述特征序列進(jìn)行標(biāo)注,利用標(biāo)注好的特征序列訓(xùn)練向量表示模型;
其中,將根據(jù)黑白名單無法標(biāo)注的特征序列稱為灰度數(shù)據(jù);
3)利用訓(xùn)練好的向量表示模型,對所述灰度數(shù)據(jù)進(jìn)行向量表示,得到各所述灰度數(shù)據(jù)對應(yīng)的向量;
4)計(jì)算每一所述灰度數(shù)據(jù)i對應(yīng)的向量與各標(biāo)注為白名單的特征序列對應(yīng)的向量之間的距離d;如果該距離d小于設(shè)定閾值,則過濾掉所述灰度數(shù)據(jù)i對應(yīng)的安全日志。
進(jìn)一步的,所述特征序列包括日志對應(yīng)主體的內(nèi)容特征、行為特征。
進(jìn)一步的,所述內(nèi)容特征為日志主體本身的屬性信息,包括域名長度、TLD,主機(jī)IP地址的網(wǎng)段、所屬國家,用戶的身份、權(quán)限;所述行為特征為日志中記錄的行為信息,包括域名解析行為、用戶發(fā)起請求方式以及服務(wù)器響應(yīng)狀態(tài)。
進(jìn)一步的,采用歐幾里得距離計(jì)算公式、曼哈頓距離計(jì)算公式或切比雪夫距離計(jì)算公式計(jì)算所述距離d。
進(jìn)一步的,將標(biāo)注好的特征序列輸入到孿生神經(jīng)網(wǎng)絡(luò)中,訓(xùn)練得到所述向量表示模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院信息工程研究所,未經(jīng)中國科學(xué)院信息工程研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810642159.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- SAR圖像序列特征提取方法
- 一種序列特征視角下的多維序列分析方法
- 一種特征序列的優(yōu)選方法和裝置
- 時(shí)間序列數(shù)據(jù)特征量提取裝置、時(shí)間序列數(shù)據(jù)特征量提取方法和時(shí)間序列數(shù)據(jù)特征量提取程序
- 目標(biāo)匹配方法及裝置、電子設(shè)備和存儲介質(zhì)
- 定位大氣波導(dǎo)干擾的方法、基站及計(jì)算機(jī)可讀存儲介質(zhì)
- 訓(xùn)練時(shí)間序列預(yù)測模型的方法、時(shí)間序列預(yù)測方法及裝置
- 基于時(shí)域特征融合的視頻超分辨率重建方法及系統(tǒng)
- 數(shù)據(jù)集優(yōu)化方法、裝置、電子設(shè)備及存儲介質(zhì)
- 特征序列對齊方法
- 一種網(wǎng)絡(luò)狀態(tài)分析方法
- 基于安全日志的網(wǎng)絡(luò)狀態(tài)分析系統(tǒng)
- IDC信息安全管理的方法、裝置及系統(tǒng)
- 一種復(fù)雜網(wǎng)絡(luò)體系下異構(gòu)安全日志信息的自適應(yīng)提取方法及系統(tǒng)
- 一種安全日志存儲和讀取方法、裝置及安全管控系統(tǒng)
- 一種安全日志采集方法、裝置及系統(tǒng)
- 安全日志采集解析方法、裝置、設(shè)備及介質(zhì)
- 安全日志提取方法、裝置和計(jì)算機(jī)設(shè)備
- 安全事件挖掘方法、裝置、存儲介質(zhì)及電子設(shè)備
- 數(shù)據(jù)擺渡系統(tǒng)及方法
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語料庫數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺的方法、裝置、電子設(shè)備和存儲介質(zhì)





