[發(fā)明專利]異常數(shù)據(jù)檢測方法、裝置、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110725998.1 | 申請日: | 2021-06-29 |
| 公開(公告)號: | CN113360656A | 公開(公告)日: | 2021-09-07 |
| 發(fā)明(設(shè)計)人: | 周成琳 | 申請(專利權(quán))人: | 未鯤(上海)科技服務有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F11/34;G06N3/04 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 李翔宇 |
| 地址: | 200000 上海市浦東新區(qū)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 異常 數(shù)據(jù) 檢測 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
本申請公開了異常數(shù)據(jù)檢測方法、裝置、設(shè)備及存儲介質(zhì),涉及運維技術(shù)領(lǐng)域,方法包括:獲取待處理日志,待處理日志為字符類型的數(shù)據(jù)文件;對待處理日志進行切片,得到第一片段集合,第一片段集合包括多個序列片段;將第一片段集合進行數(shù)據(jù)變換,得到第二片段集合,所述第二片段集合包括多個第二序列片段,第二序列片段由第一序列片段經(jīng)過數(shù)據(jù)變換得到,第二序列片段為數(shù)字類型;對第二片段集合進行聚類分析,得到異常數(shù)據(jù)并輸出。本方案能夠?qū)崿F(xiàn)對字符型序列的數(shù)值化,以及根據(jù)概率樣本分布自動進行聚類,且無需基于人工經(jīng)驗介入的超參數(shù),由此能夠避免因經(jīng)驗差異和偶然性導致的算法效果的差異,且可操作性強,易于移植到任何新場景中。
技術(shù)領(lǐng)域
本申請涉及運維技術(shù)領(lǐng)域,尤其涉及一種異常數(shù)據(jù)檢測方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù)
日志文件通常用于檢測分布式系統(tǒng)中的異常操作行為。運維人員經(jīng)常使用關(guān)鍵字搜索和規(guī)則匹配來手動檢查日志,隨著分布式系統(tǒng)的規(guī)模和復雜性不斷增加,日志量暴增,繼續(xù)依賴運維人員進行人工檢查日志中的異常的效率較低,已無法適應規(guī)模和復雜性不斷增加的分布式系統(tǒng)。
目前主要采用監(jiān)督學習和非監(jiān)督學習來減少人工檢測的工作量。在監(jiān)督學習方面,主要有邏輯回歸、決策樹、SVM等方法,但由于監(jiān)督學習需要在建立模型之前為樣本打標,而日志異常片段在實際工作中出現(xiàn)次數(shù)非常少,以少量打標樣本建立的模型極其容易導致過擬合,且監(jiān)督學習不能對新出現(xiàn)異常片段樣本進行識別。在非監(jiān)督學習方面,主要有聚類、PCA、invariantsmining等方法,但非監(jiān)督學習仍然依賴于經(jīng)驗和偶然性才能將字符型變量轉(zhuǎn)換為數(shù)字型變量、以及設(shè)置超參數(shù)。
發(fā)明內(nèi)容
本申請實施例提供了一種異常數(shù)據(jù)檢測方法、裝置、設(shè)備及存儲介質(zhì),旨在解決現(xiàn)有技術(shù)中基于非監(jiān)督學習檢測日志中的異常操作行為時需要依賴于經(jīng)驗和偶然性才能將字符型變量轉(zhuǎn)換為數(shù)字型變量、以及設(shè)置超參數(shù)的問題。
第一方面,本申請實施例提供了一種異常數(shù)據(jù)檢測方法,其包括:
獲取待處理日志,所述待處理日志為字符類型的數(shù)據(jù)文件;
對所述待處理日志進行切片,得到第一片段集合,所述第一片段集合包括多個序列片段;
將所述第一片段集合進行數(shù)據(jù)變換,得到第二片段集合,所述第二片段集合包括多個第二序列片段,第二序列片段由第一序列片段經(jīng)過數(shù)據(jù)變換得到,第二序列片段為數(shù)字類型;
對所述第二片段集合進行聚類分析,得到異常數(shù)據(jù)并輸出。
第二方面,本申請實施例提供了一種異常數(shù)據(jù)檢測裝置,其包括:
獲取模塊,用于獲取待處理日志,所述待處理日志為字符類型的數(shù)據(jù)文件;
處理模塊,用于對所述待處理日志進行切片,得到第一片段集合,所述第一片段集合包括多個序列片段;將所述第一片段集合進行數(shù)據(jù)變換,得到第二片段集合,所述第二片段集合包括多個第二序列片段,第二序列片段由第一序列片段經(jīng)過數(shù)據(jù)變換得到,第二序列片段為數(shù)字類型;
所述處理模塊還用于對所述第二片段集合進行聚類分析,得到異常數(shù)據(jù)并輸出。
第三方面,本申請實施例又提供了一種計算機設(shè)備,其包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述第一方面所述的異常數(shù)據(jù)檢測方法。
第四方面,本申請實施例還提供了一種計算機可讀存儲介質(zhì),其中所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序當被處理器執(zhí)行時使所述處理器執(zhí)行上述第一方面所述的異常數(shù)據(jù)檢測方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于未鯤(上海)科技服務有限公司,未經(jīng)未鯤(上海)科技服務有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110725998.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





