[發明專利]一種日志數據增強方法、分類檢測方法及系統在審
| 申請號: | 202011592665.8 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112738092A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 陳龍;王煒;江軍;王巧娟 | 申請(專利權)人: | 北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06N3/04;G06N3/08 |
| 代理公司: | 北京開陽星知識產權代理有限公司 11710 | 代理人: | 安偉 |
| 地址: | 100000 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 日志 數據 增強 方法 分類 檢測 系統 | ||
1.一種日志數據增強方法,其特征在于,所述方法包括:
對采集的所述日志數據進行預處理;
對所述預處理后的日志數據進行數據歸并處理;
構建生成對抗網絡模型,利用所述數據歸并處理后的日志數據對所述生成對抗網絡模型進行訓練;
根據訓練好的所述生成對抗網絡模型生成日志數據樣本;
基于所述日志數據樣本與所述數據歸并處理后的日志數據進行數據結合,形成增強的日志數據集。
2.根據權利要求1所述的方法,其特征在于,所述日志數據為網絡安全信息日志數據,對所述日志數據進行預處理包括:
利用規則庫去除所述日志數據中的冗余數據;
將所述去除冗余數據的日志數據存儲為統一的文檔格式。
3.根據權利要求1所述的方法,其特征在于,對所述預處理后的日志數據進行數據歸并處理包括:
對所述預處理后的日志數據按照時間戳規則進行數據歸并處理。
4.根據權利要求1所述的方法,其特征在于,所述生成對抗網絡模型包括生成器和判別器,所述構建生成對抗網絡模型,利用所述數據歸并處理后的日志數據對所述生成對抗網絡模型進行訓練,包括:
隨機初始化所述生成器和所述判別器的參數;
通過最大似然估計預訓練所述生成器;
根據所述預訓練生成器生成初始數據,基于所述初始數據通過最小化交叉熵預訓練所述判別器;
將隨機變量輸入所述預訓練生成器中生成日志文本序列;其中,所述日志文本序列包括完整的日志文本序列和非完整的日志文本序列;
采用蒙特卡洛樹搜索對所述非完整的日志文本序列進行模擬;
將所述模擬的日志文本序列與所述完整的日志文本序列結合,形成新的日志文本序列;
根據所述新的日志文本序列和所述數據歸并處理后的日志數據訓練所述預訓練判別器,更新所述預訓練判別器的參數形成新的判別器,并生成獎勵值;
利用策略梯度算法結合所述獎勵值對所述預訓練生成器進行訓練,更新所述預訓練生成器的參數生成新的生成器。
5.一種日志數據分類檢測方法,其特征在于,所述方法包括:
采集日志數據,基于所述日志數據采用權利要求1-4任一所述的方法構建增強的日志數據集;
提取所述增強的日志數據集的語義向量,構建語義向量數據集;
對所述語義向量數據集進行上下文分析,形成特征向量數據集;
構建深度神經網絡模型,根據所述特征向量數據集訓練所述深度神經網絡模型,生成分類檢測模型。
6.根據權利要求5所述的方法,其特征在于,所述提取所述增強的日志數據集的語義向量,構建語義向量數據集包括:
利用自然語言模型提取所述增強的日志數據集的語義向量,構建語義向量數據集;其中,提取所述增強的日志數據集的語義向量包括詞向量、基于詞向量的段向量和關鍵詞。
7.一種日志數據增強裝置,其特征在于,所述裝置包括:
日志數據預處理模塊,用于對采集到的日志數據進行預處理;
數據歸并處理模塊,用于對所述預處理后的日志數據按時間戳規則進行數據歸并處理;
生成對抗網絡模型構建和訓練模塊,構建生成對抗網絡模型,利用所述數據歸并處理后的日志數據進行訓練并生成模型;
日志數據樣本增強模塊,根據訓練好的所述生成對抗網絡模型生成日志數據樣本,將所述日志數據樣本與所述數據歸并處理后的日志數據結合,形成增強的日志數據集。
8.一種日志數據分類檢測系統,其特征在于,包括:權利要求7所述的日志數據增強裝置,以及,
數據采集模塊,采集日志數據,并由所述日志數據增強裝置構建增強的日志數據集;
語義向量數據集構建模塊,提取所述增強的日志數據集的語義向量,構建語義向量數據集;
上下文分析模塊,將構建的所述語義向量數據集進行上下文分析,形成特征向量數據集;
日志數據分類檢測模塊,構建深度神經網絡模型,根據所述特征向量數據集訓練深度神經網絡模型,生成分類檢測模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司,未經北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011592665.8/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





