[發(fā)明專利]一種日志采集的臟數(shù)據(jù)快速檢測(cè)及處理方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210014101.9 | 申請(qǐng)日: | 2022-01-07 |
| 公開(公告)號(hào): | CN114356908A | 公開(公告)日: | 2022-04-15 |
| 發(fā)明(設(shè)計(jì))人: | 黃詩(shī)賢;唐敏;張章學(xué);藍(lán)友樞;葉松 | 申請(qǐng)(專利權(quán))人: | 福建省海峽信息技術(shù)有限公司 |
| 主分類號(hào): | G06F16/215 | 分類號(hào): | G06F16/215;G06F16/2458;G06F16/28;G06F16/22;G06F9/54 |
| 代理公司: | 福州元?jiǎng)?chuàng)專利商標(biāo)代理有限公司 35100 | 代理人: | 陳明鑫;蔡學(xué)俊 |
| 地址: | 350003 福建省*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 日志 采集 數(shù)據(jù) 快速 檢測(cè) 處理 方法 | ||
本發(fā)明涉及一種日志采集的臟數(shù)據(jù)快速檢測(cè)及處理方法。包括:S1、采集各種不同網(wǎng)絡(luò)設(shè)備類型的日志,匯聚到消息中間件;S2、依據(jù)解析庫(kù)中解析規(guī)則對(duì)消息中間件中日志進(jìn)行解析規(guī)則匹配,匹配成功的提取字段,并執(zhí)行步驟S3;匹配不成功的認(rèn)為是臟數(shù)據(jù),并執(zhí)行步驟S5;S3、依據(jù)字段分類庫(kù)中的字段分類規(guī)則對(duì)提取的字段進(jìn)行分類;S4、對(duì)分類完的字段,依據(jù)其對(duì)應(yīng)的分類值,通過廣度優(yōu)先遍歷,找到這個(gè)分類值的概率,同理找到相應(yīng)日志下所有字段的分類值的概率,依次對(duì)各個(gè)字段的分類值的概率進(jìn)行判斷,只要其中一個(gè)字段的分類值的概率大于設(shè)置的閾值,就判定為臟數(shù)據(jù);S5、將臟數(shù)據(jù)存放到臟數(shù)據(jù)庫(kù)中,維護(hù)人員根據(jù)臟數(shù)據(jù)庫(kù)中臟數(shù)據(jù)對(duì)規(guī)則進(jìn)行重新調(diào)整。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體涉及一種日志采集的臟數(shù)據(jù)快速檢測(cè)及處理方法。
背景技術(shù)
在采集日志過程中,經(jīng)常出現(xiàn)由于規(guī)則配置不對(duì)或者規(guī)則配置有缺陷,或者配置不完整,系統(tǒng)中就會(huì)不時(shí)產(chǎn)生臟數(shù)據(jù),這些臟數(shù)據(jù)會(huì)影響到我們系統(tǒng)的正常數(shù)據(jù)展示,清理起來又費(fèi)時(shí)費(fèi)力。
現(xiàn)有采集清洗方案中,總的流程是先根據(jù)解析規(guī)則提取字段。然后基于分類規(guī)則進(jìn)行分類,達(dá)到日志的規(guī)范化,現(xiàn)有的方法能最大限度避免臟數(shù)據(jù)的方法是在解析過程中,如果沒有正確的提取字段,就判定為臟數(shù)據(jù),而沒有進(jìn)一步的進(jìn)行判斷。
現(xiàn)有采集過程中對(duì)臟數(shù)據(jù)處理的方案主要有以下幾個(gè)缺點(diǎn):
1:只是簡(jiǎn)單判斷日志解析是否成功,如果失敗,就判為臟數(shù)據(jù)
2:有些隱藏更深的臟數(shù)據(jù)沒法檢測(cè)成功,比如某些字段的分類不是我們想要的結(jié)果。
3:有些系統(tǒng)具有臟數(shù)據(jù)判定規(guī)則,匹配復(fù)雜,效率不高,且判斷準(zhǔn)確性也不高。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決目前網(wǎng)絡(luò)安全日志采集流程中,檢測(cè)并避免各種臟數(shù)據(jù)污染正常數(shù)據(jù),因此提供一種日志采集的臟數(shù)據(jù)快速檢測(cè)及處理方法。
為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種日志采集的臟數(shù)據(jù)快速檢測(cè)及處理方法,包括如下步驟:
S1、通過網(wǎng)絡(luò)采集各種不同網(wǎng)絡(luò)設(shè)備類型的日志,最終匯聚到消息中間件;
S2、依據(jù)解析庫(kù)中的解析規(guī)則對(duì)消息中間件中日志進(jìn)行解析規(guī)則匹配,匹配成功的提取字段,并執(zhí)行步驟S3;匹配不成功的認(rèn)為是臟數(shù)據(jù),并執(zhí)行步驟S5;
S3、依據(jù)字段分類庫(kù)中的字段分類規(guī)則對(duì)提取的某些分類字段進(jìn)行分類;
S4、對(duì)分類完的字段,依據(jù)其對(duì)應(yīng)的分類值,通過廣度優(yōu)先遍歷,找到這個(gè)分類值的概率,同理找到相應(yīng)日志下所有字段的分類值的概率,依次對(duì)各個(gè)字段的分類值的概率進(jìn)行判斷,只要其中一個(gè)字段的分類值的概率大于設(shè)置的閾值,就判定為臟數(shù)據(jù);
S5、將臟數(shù)據(jù)存放到臟數(shù)據(jù)庫(kù)中,維護(hù)人員根據(jù)臟數(shù)據(jù)庫(kù)中臟數(shù)據(jù)對(duì)規(guī)則進(jìn)行重新調(diào)整。
在本發(fā)明一實(shí)施例中,所述段分類規(guī)則中字段分類類型是按行進(jìn)行存儲(chǔ),所述段分類規(guī)則是從根節(jié)點(diǎn)開始構(gòu)建成的分類規(guī)則樹,每個(gè)葉子節(jié)點(diǎn)由相應(yīng)字段的分類值即數(shù)字代碼與對(duì)應(yīng)的概率值構(gòu)成。
相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:本發(fā)明方法因?yàn)樵趦?nèi)存中進(jìn)行樹的廣度優(yōu)先遍歷,能夠快速提高查找效率,以及對(duì)概率值的判定比較準(zhǔn)確,針對(duì)每個(gè)字段的判定,具有更高的準(zhǔn)確性,整個(gè)流程能快速及準(zhǔn)確的判斷出臟數(shù)據(jù)。
另外,如果判斷為臟數(shù)據(jù),另外存入相應(yīng)的庫(kù)中,然后進(jìn)行人工校正,這樣臟數(shù)據(jù)就不會(huì)導(dǎo)入正常的倉(cāng)庫(kù)中而影響正常的流程。
附圖說明
圖1為本發(fā)明方法流程示意圖。
圖2為本發(fā)明分類規(guī)則樹結(jié)構(gòu)示意圖。
圖3為本發(fā)明字段判斷流程示意圖。
具體實(shí)施方式
下面結(jié)合附圖,對(duì)本發(fā)明的技術(shù)方案進(jìn)行具體說明。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福建省海峽信息技術(shù)有限公司,未經(jīng)福建省海峽信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210014101.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種基于精簡(jiǎn)策略的集群系統(tǒng)的日志管理優(yōu)化方法
- 日志分離方法及裝置
- 日志服務(wù)器處理日志的方法和裝置
- 一種基于負(fù)載均衡的文件系統(tǒng)日志模型
- 日志生成方法、應(yīng)用服務(wù)器、日志服務(wù)器及日志生成系統(tǒng)
- 一種多線程日志輸出的方法及裝置
- 一種日志分析方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 日志解析方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 日志處理方法及設(shè)備
- 一種日志檢測(cè)方法、裝置、終端及服務(wù)器
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





