[發明專利]一種日志流程模板的提取方法及裝置在審
| 申請號: | 202211065881.6 | 申請日: | 2022-08-31 |
| 公開(公告)號: | CN115454694A | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 董惠良;姜學峰;汪炎平 | 申請(專利權)人: | 浙江中煙工業有限責任公司 |
| 主分類號: | G06F11/07 | 分類號: | G06F11/07;G06F40/216;G06N7/00 |
| 代理公司: | 北京維澳專利代理有限公司 11252 | 代理人: | 陳變花 |
| 地址: | 310008 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 日志 流程 模板 提取 方法 裝置 | ||
本申請公開了一種日志流程模板的提取方法及裝置,提取方法包括:對多條不同的日志記錄數據兩兩配對,形成多個第一日志對;對每個第一日志對做預處理后輸入關系預測模型,獲得第一日志對的流程順序概率;利用流程順序概率大于閾值的所有第二日志對構建日志記錄有向圖;采用深度優先搜索算法遍歷日志記錄有向圖中的所有路徑,獲得日志流程模板。本申請利用日志記錄數據之間的流程順序關系獲得日志記錄數據之間的有向圖,體現實際業務流程中日志的記錄過程,為解析系統執行流程、定位異常提供了有力的基礎。
技術領域
本申請涉及數據處理技術領域,更具體地,涉及一種日志流程模板的提取方法及裝置。
背景技術
日志的收集、存儲和分析是任何軟件系統必備的功能,是系統運行、維護、故障排查的必要條件。當系統發生告警或故障時,需要結合日志排查定位異常及分析原因。由于日志數據非常龐大,且復雜,排查和分析日志數據的過程往往需要依賴大量人力,甚至需要業務人員與技術人員多次重復對接,耗費大量人力。自動化日志分析主要包含兩層任務,一是對單條日志數據的語義分析,二是分析多條數據間的聯系,從而整理出系統程序執行流程,判別異常。由于日志本身的產生是系統研發人員人工定義的,具有固定流程,因此從日志數據中自動提取日志流程模板,成為解析系統執行流程、定位異常的重要方法之一。
但現有技術的自動化日志分析技術重點在于提取單條日志的模板,忽略了多條日志間的聯系信息以及日志流程模板的提取。
發明內容
本申請提供一種日志流程模板的提取方法及裝置,利用日志記錄數據之間的流程順序關系獲得日志記錄數據之間的有向圖,體現實際業務流程中日志的記錄過程,為解析系統執行流程、定位異常提供了有力的基礎。
本申請提供了一種日志流程模板的提取方法,包括:
對多條不同的日志記錄數據兩兩配對,形成多個第一日志對;
對每個第一日志對做預處理后輸入關系預測模型,獲得第一日志對的流程順序概率;
利用流程順序概率大于閾值的所有第二日志對構建日志記錄有向圖;
采用深度優先搜索算法遍歷日志記錄有向圖中的所有路徑,獲得日志流程模板。
優選地,對每個第一日志對做預處理包括:
將第一日志對內的兩條日志記錄數據去除標點符號,作為第一句子和第二句子;
將第一句子和第二句子分別轉化成第一句子向量和第二句子向量;
按照第一日志對中兩條日志記錄的順序將第一句子向量和第二句子向量首尾拼接,形成句子向量對。
優選地,利用流程順序概率大于閾值的所有第二日志對構建日志記錄有向圖,包括:
按照每個第二日志對中兩條日志記錄的順序將與第二日志對對應的第三句子向量和第四句子向量的頂點連接,所有第二日志對形成的頂點連線形成日志記錄有向圖。
優選地,對關系預測模型進行訓練包括:
采集多條不重復的日志記錄數據,形成日志記錄數據集;
將日志記錄數據集中的日志記錄數據進行兩兩配對,形成日志關系集;
將日志關系集中的所有第三日志對轉化為向量樣本對,形成日志關系訓練集;
利用日志關系訓練集對關系預測模型進行訓練。
優選地,將日志記錄數據集中的日志記錄數據進行兩兩配對,形成日志關系集,具體包括:
提取日志記錄數據集中的第一日志記錄數據和第二日志記錄數據;
將第一日志記錄數據和第二日志記錄數據按照不同順序形成的日志對分別作為第四日志對和第五日志對;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江中煙工業有限責任公司,未經浙江中煙工業有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211065881.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種平面微帶和差網絡
- 下一篇:一種鋼包工作層厚度測量裝置及方法





