[發明專利]一種日志分類的方法和裝置在審
| 申請號: | 202011095293.8 | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112199344A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 尹威;范淵 | 申請(專利權)人: | 杭州安恒信息技術股份有限公司 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/35;G06F16/335;G06F11/34 |
| 代理公司: | 杭州華進聯浙知識產權代理有限公司 33250 | 代理人: | 金無量 |
| 地址: | 310051 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 日志 分類 方法 裝置 | ||
1.一種日志分類的方法,其特征在于,包括:
獲取待分類的原始日志;
利用正則表達式對所述原始日志中的常規信息進行歸一化處理,得到被分割成若干個詞的預處理日志,所述常規信息包括時間信息、地址信息、以及URL信息;
利用關聯規則算法,從所述預處理日志中獲得高置信度的頻繁項集;
對所述預處理日志中的詞進行去重,得到無重復的詞集;
根據所述詞集,對所述預處理日志和所述高置信度的頻繁項集進行有效編碼,獲得日志向量和高置信度的頻繁項集向量;
以所述高置信度的頻繁項集向量為初始聚類中心,對所述日志向量和所述高置信度的頻繁項集進行聚類分析,獲得日志分類結果。
2.根據權利要求1所述的方法,其特征在于,利用正則表達式對所述原始日志中的常規信息進行歸一化處理,得到被分割成若干個詞的預處理日志,包括:
將所述原始日志中的常規信息進行歸一化處理,獲得第一日志;
將所述第一日志中除所述常規信息中包含的數字外,將其他數數字替換為預設數字,獲得第二日志;
將所述第二日志中除所述常規信息中包含的符號、其他的連接線和其他的下劃線外的符號替換為空格,獲得所述預處理日志。
3.根據權利要求2所述的方法,其特征在于,所述將所述原始日志中的常規信息進行歸一化處理,獲得第一日志,包括:
將所述常規信息中的所述時間信息統一為第一預設格式,將所述常規信息中的所述地址信息統一為第二預設格式,將所述常規信息中的所述URL信息統一為第三預設格式,得到所述第一日志。
4.根據權利要求1所述的方法,其特征在于,所述利用關聯規則算法,從所述預處理日志中獲得高置信度的頻繁項集,包括:
根據預設支持度對所述預處理日志進行迭代,提取出多個頻繁項集;
計算所述多個頻繁項集的置信度;
根據預設置信度從所述多個頻繁項集中選取所述高置信度的頻繁項集。
5.根據權利要求1所述的方法,其特征在于,所述對所述預處理日志中的詞進行去重,得到無重復的詞集,包括:
提取所述預處理日志中的所有詞,獲得初步詞集;
刪除所述初步詞集中的重復詞,得到所述詞集。
6.根據權利要求1至5任一項所述的方法,其特征在于,所述根據所述詞集,對所述預處理日志和所述高置信度的頻繁項集進行有效編碼,獲得日志向量和高置信度的頻繁項集向量,包括:
根據所述詞集,確定所述詞集中的詞的數量;
根據所述詞的數量,對所述預處理日志和所述高置信度的頻繁項集進行有效編碼,獲得所述日志向量和所述高置信度的頻繁項集向量。
7.一種日志分類的裝置,其特征在于,所述裝置包括第一獲取模塊、歸一化模塊、第二獲取模塊、詞集模塊、有效編碼模塊和聚類分析模塊;
所述第一獲取模塊,用于獲取待分類的原始日志;
所述歸一化模塊,利用正則表達式對所述原始日志中的常規信息進行歸一化處理,得到被分割成若干個詞的預處理日志;所述常規信息包括時間信息、地址信息、以及URL信息;
所述第二獲取模塊,用于所述利用關聯規則算法,從所述預處理日志中獲得高置信度的頻繁項集;
所述詞集模塊,用于對所述預處理日志中的詞進行去重,得到無重復的詞集;
所述有效編碼模塊,用于根據所述詞集,對所述預處理日志和所述高置信度的頻繁項集進行有效編碼,獲得日志向量和高置信度的頻繁項集向量;
所述聚類分析模塊,用于以所述高置信度的頻繁項集向量為初始聚類中心,對所述日志向量和所述高置信度的頻繁項集進行聚類分析,獲得日志分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州安恒信息技術股份有限公司,未經杭州安恒信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011095293.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種MES數據系統的安全管理方法及系統
- 下一篇:一種產品數據溯源方法及系統





