[發明專利]一種日志數據增強方法、分類檢測方法及系統在審
| 申請號: | 202011592665.8 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112738092A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 陳龍;王煒;江軍;王巧娟 | 申請(專利權)人: | 北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06N3/04;G06N3/08 |
| 代理公司: | 北京開陽星知識產權代理有限公司 11710 | 代理人: | 安偉 |
| 地址: | 100000 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 日志 數據 增強 方法 分類 檢測 系統 | ||
本發明公開一種日志數據增強方法、分類檢測方法及系統,該方法包括:對采集的所述日志數據進行預處理;對所述預處理后的日志數據進行數據歸并處理;構建生成對抗網絡模型,利用所述數據歸并處理后的日志數據對所述生成對抗網絡模型進行訓練;根據訓練好的所述生成對抗網絡模型生成日志數據樣本;基于所述日志數據樣本與所述數據歸并處理后的日志數據進行數據結合,形成增強的日志數據集。能夠有效解決網絡空間安全領域中日志數據樣本不平衡的問題、解決缺乏代表性樣本導致的相似度和過擬合的問題,以及未知網絡威脅分類檢測的問題,達到日志數據增強擴充和分類檢測的目的。
技術領域
本公開涉及網絡安全及人工智能技術領域,尤其涉及一種日志數據增強方法、分類檢測方法及系統。
背景技術
在網絡空間安全領域日志數據中存在正常樣本和威脅樣本不平衡的問題,在實際的日志數據采集中,只存在少量的威脅數據,因此需要對少量的威脅數據進行數據增強。
現階段,對于數據增強,一方面通過采樣技術,即人工數據合成來增強數據集,僅依靠人工搜集更多稀缺類別的數據,無法實現數據集的均衡,對于數據集本身就很稀少,無法實現有效規模的樣本采用。包括欠采樣法、過采樣法和數據合成等方法,均會導致過擬合的問題,或是放大正比例噪音對模型的影響,導致在實際測試時準確率比較低。
對于通過日志數據分類檢測未知網絡安全的方法,目前多采用深度學習模型,但在訓練深度學習模型時,經常會面臨少量甚至沒有標簽數據的情況,日志樣本標簽分類不平衡的問題,因缺乏代表性樣本導致相似度和過擬合問題,使得訓練的模型性能大幅度下降,導致預測準確率很低,可能將惡意威脅誤判為正常從而導致重大損失,錯分成本較高。
發明內容
為了解決上述日志數據樣本不平衡、缺乏代表性樣本所導致相似度和過擬合以及對于惡意威脅存在誤判的技術問題,本發明公開了一種日志數據增強方法、分類檢測方法及系統。
本公開實施例提供了一種日志數據增強方法,包括:
對采集的所述日志數據進行預處理;
對所述預處理后的日志數據進行數據歸并處理;
構建生成對抗網絡模型,利用所述數據歸并處理后的日志數據對所述生成對抗網絡模型進行訓練;
根據訓練好的所述生成對抗網絡模型生成日志數據樣本;
基于所述日志數據樣本與所述數據歸并處理后的日志數據進行數據結合,形成增強的日志數據集。
可選地,所述日志數據為網絡安全信息日志數據,對所述日志數據進行預處理包括:
利用規則庫去除所述日志數據中的冗余數據;
將所述去除冗余數據的日志數據存儲為統一的文檔格式。
可選地,對所述預處理后的日志數據進行數據歸并處理包括:
對所述預處理后的日志數據按照時間戳規則進行數據歸并處理。
可選地,所述生成對抗網絡模型包括生成器和判別器,所述構建生成對抗網絡模型,利用所述數據歸并處理后的日志數據對所述生成對抗網絡模型進行訓練,包括:
隨機初始化所述生成器和所述判別器的參數;
通過最大似然估計預訓練所述生成器;
根據所述預訓練生成器生成初始數據,基于所述初始數據通過最小化交叉熵預訓練所述判別器;
將隨機變量輸入所述預訓練生成器中生成日志文本序列;其中,所述日志文本序列包括完整的日志文本序列和非完整的日志文本序列;
采用蒙特卡洛樹搜索對所述非完整的日志文本序列進行模擬;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司,未經北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011592665.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





