[發明專利]一種基于深度學習的分布式異常日志自動識別方法在審
| 申請號: | 202010333973.2 | 申請日: | 2020-04-24 |
| 公開(公告)號: | CN111611218A | 公開(公告)日: | 2020-09-01 |
| 發明(設計)人: | 玄躋峰;許宜森;張玉虎 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/33;G06F40/216;G06F40/30;G06K9/62;G06N3/04 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 李丹 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 分布式 異常 日志 自動識別 方法 | ||
本發明公開了一種基于深度學習的分布式異常日志自動識別方法,包括以下步驟:1)獲取日志文件數據并進行預處理;2)基于預處理的日志,使用word2vec模型訓練得到日志中每個詞的詞向量;3)使用得到的詞向量將日志文本中的句子轉變成句向量;4)將句向量輸入到長短期記憶神經網絡模型訓練得到二分類模型;5)將新的日志文件處理后輸入到經過訓練的長短期記憶神經網絡模型中,判斷輸入的日志是否為異常日志。本發明方法建立了基于深度神經網絡的異常日志自動識別的分類模型,將原來的人工識別異常日志轉換為自動識別異常日志,降低了人工識別異常日志所造成的失誤風險,并減少了人工識別日志的人工和時間成本。
技術領域
本發明涉及數據挖掘技術,尤其涉及一種基于深度學習的分布式異常日志自動識別方法。
背景技術
現代軟件日益復雜,規模日益龐大,導致軟件維護成本攀升。分布式及異構軟件系統的廣泛使用,使得人工的監控軟件運行狀態和發現運行故障變得極為困難。日志是軟件運行時不可或缺的輸出形式。為了盡早發現分布式系統的故障所在,減少潛在的宕機風險,大量的分布式系統通過實時的日志輸出保存運行時軟件狀態,為維護人員提供數據基礎。
在現代分布式系統中,維護人員可以基于系統輸出的日志,人工檢查軟件運行時狀態,發現和分析故障所在。然而,大量的分布式系統保持全天候運行,每天輸出海量的日志數據。這使得人工分析全部日志變得非常困難。
為了通過日志發現軟件運行中出現的故障及潛在風險,維護人員基于正常日志集合,人工定義正確日志所對應的日志特征。對于新的日志,可以通過將該日志與日志特征匹配的方式,識別日志是否為程序正常執行時輸出的日志,即日志是否存在異常行為。若不符合,則表明軟件存在運行故障或潛在風險,可以據此進一步人工分析。然而,維護人員人工定義正確的日志特征是極為耗時和容易出錯的,主要的原因是(1)日志本身復雜,人工定義日志特征經常出現定義不完全的情況;(2)現代軟件的持續集成開發,使得軟件版本經常變更,日志特征的定義需要頻繁更改。基于上面兩點原因,人工定義日志特征進而識別異常日志的方法在實踐中會消耗大量的人力和時間成本。
發明內容
本發明要解決的技術問題在于針對現有技術中的缺陷,提供一種基于深度學習的分布式異常日志自動識別方法,該方法能夠降低人工識別異常日志所造成的失誤風險。
本發明解決其技術問題所采用的技術方案是:一種基于深度學習的分布式異常日志自動識別方法,包括以下步驟:
1)獲取正常和異常日志集合并進行預處理;截取每條日志的時間戳,將日志文件中的日志消息使用日志中的時間戳字符串進行排序,之后過濾掉每條日志中時間戳字符串;
2)基于預處理的日志,使用word2vec模型訓練得到日志中每個詞的詞向量;
3)使用得到的詞向量將日志文本中的句子轉變成句向量;
4)將句向量輸入到長短期記憶神經網絡模型訓練得到二分類模型;
5)新的日志文件進行預處理,提取詞向量,并將日志文件中的句子轉化成句向量,將句向量輸入到經過訓練的長短期記憶神經網絡模型(LSTM,LongShort-Term Memory)中,判斷輸入的日志是否為異常日志;所述新的日志文件為日志消息的發生時間在訓練日志文件后的文件;
按上述方案,所述步驟2)中使用word2vec模型訓練得到日志中每個詞的詞向量,word2vec模型訓練方式使用skip-gram或CBOW詞模型的計算方式,并且采用負采樣模型進行訓練,得到詞向量。
按上述方案,所述步驟4)中長短期記憶神經網絡模型訓練過程如下:
4.1)每個神經單元輸入向量X是一個句向量,將句向量按照時間先后順序依次輸入到長短期記憶神經網絡模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010333973.2/2.html,轉載請聲明來源鉆瓜專利網。





