[發明專利]一種保留特定業務信息的日志模板提取方法及裝置有效
| 申請號: | 202210702569.7 | 申請日: | 2022-06-21 |
| 公開(公告)號: | CN114818643B | 公開(公告)日: | 2022-10-04 |
| 發明(設計)人: | 湯汝鳴;曹立;殷康璘;劉大鵬 | 申請(專利權)人: | 北京必示科技有限公司 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186;G06F40/194;G06F40/216;G06F16/18 |
| 代理公司: | 北京中知法苑知識產權代理有限公司 11226 | 代理人: | 陳俊由 |
| 地址: | 100083 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 保留 特定 業務 信息 日志 模板 提取 方法 裝置 | ||
本發明公開了一種保留特定業務信息的日志模板提取方法,包括:S1針對業務日志,設立實體對象的字段匹配規則;S2針對每一條日志,匹配其實體對象的字段,并統一使用特定的占位符替換;S3基于通用的格式樹模板提取算法,對原始日志進行模板提取;S4對提取后的模板進行序列提取,并對模板提取算法中相似度較高的字段進行人工核驗,以對預處理的匹配進行反饋;S5通過已匹配的實體對象字段,將屬于同一對象的日志序列提取出來,構造控制流圖。本發明通過預處理階段的字段匹配規則,可以有效增加日志模板提取的準確性,并大幅增加模板的可讀性,同時對特定字段的提取可以有效幫助日志序列的識別,減少序列模式識別的復雜度,提高算法運行效率。
技術領域
本發明屬于計算機技術領域,具體涉一種保留特定業務信息的日志模板提取方法、裝置、設備和存儲介質。
背景技術
在業務監控日志中,通過特定日志類型的出現或數量變化可以幫助運維人員判斷業務是否正常運行。通常情況下,需要對不同類型的日志進行關鍵字的監控或模板提取來對大量不同類型的日志進行區分。在實際的環境中,由于大型企業線上系統的業務數量多、交易量大,在短時間內有大量并發的業務,其產生的日志數量巨大且混雜。另一方面,由于不同的業務、應用系統的實現上存在區別,其產生的日志格式較為復雜,難以通過統一的方式進行處理。上述原因使得人工判別或自動化識別日志模板都具有相當的挑戰。本發明主要解決在海量日志中,對無特定格式的日志進行快速模板提取,并基于提取后的日志模板,對業務流程的日志序列進行構造,通過多條日志構建完整的業務執行流程,以提高通過日志模板對業務異常判斷的準確性。
現有技術中,針對常見的日志類型,日志模板提取主要通過空格等分隔符,對日志文本進行分詞,并按照分詞后的每一部分,將日志的單詞分為文字、時間、數字等格式。在分詞的基礎上,模板提取算法將逐一對比不同的日志文本,并根據日志文本的相似度,對不同的日志進行聚類,最終生成若干模板。
模板提取的結果受到算法中文本相似度等參數的影響,通過這些參數會影響最終模板數量。現有的使用較為頻繁的日志模板提取方法,通常會構造日志的格式樹結構,將訓練數據中的日志按照分詞后的結果,形成多層的樹型結構,在由葉子結點向根結點的方向上,將會對相似的模板進行合并。通過控制層數,可以對輸出的模板數量進行調整。
在提取后的日志模板序列中,可以構造出完整的業務流程。目前通常使用最小近鄰算法對日志模板序列進行提取,并構造控制流圖。通過該方法,將對日志序列中經常出現的子串模式進行識別,以此發現特點的業務日志序列。
現有日志模板提取方法,主要通過簡單的分詞方式對日志文本進行預處理,針對原始的日志文本,對特定格式的內容如時間戳、數字、IP地址等進行替換,對剩余部分的文本則按照普通的單詞進行處理。在實際使用中,日志中存在許多特定的字段例如主機編號等,而由于模板數量的限制,會導致上述大量相似的字段被歸并,在最終顯示的模板中被通配符替換,使得最終的模板可讀性和可解釋性較差。
另一方面,由于上述方法中對特定字段的處理不夠,使得在日志模板序列的提取過程中,無法快速地區分不同業務實例的日志序列。在實際的序列提取中,需要通過算法過濾其他日志的噪聲。而在實際的環境中,由于大量同種業務高并發的情況下,對日志噪聲的過濾效果在實際中得不到保證,無法有效地構造精準的控制流圖。
發明內容
本發明提供一種保留特定業務信息的日志模板提取方法、裝置、設備和存儲介質,實現有效增加日志模板提取的準確性,并大幅增加模板的可讀性,幫助日志序列的識別,減少序列模式識別的復雜度,提高算法運行效率的效果。
第一方面,
本發明實施例提供了一種保留特定業務信息的日志模板提取方法,該方法輸入數據為按照時間順序排列的原始日志文本序列,通過本發明中所訴方法,進行模板提取并基于模板提取結果對模板序列進行模式識別,最終輸出結果為業務事件對應的日志控制流圖,所述方法包括一種保留特定業務信息的日志模板提取方法,其特征在于,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京必示科技有限公司,未經北京必示科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210702569.7/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





