[發(fā)明專利]一種基于Spark的應(yīng)用軟件運(yùn)行日志的收集與服務(wù)處理系統(tǒng)及方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810091898.6 | 申請(qǐng)日: | 2018-01-30 |
| 公開(公告)號(hào): | CN108399199A | 公開(公告)日: | 2018-08-14 |
| 發(fā)明(設(shè)計(jì))人: | 應(yīng)時(shí);程國力;張驍;張威;李宇航;賈向陽 | 申請(qǐng)(專利權(quán))人: | 武漢大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;H04L12/24 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 日志數(shù)據(jù) 應(yīng)用軟件 日志 服務(wù)處理系統(tǒng) 存儲(chǔ)服務(wù) 日志收集 用戶提供 服務(wù)層 資源層 預(yù)處理 日志數(shù)據(jù)應(yīng)用 多層次數(shù)據(jù) 分布式收集 數(shù)據(jù)應(yīng)用層 服務(wù) 查詢服務(wù) 存儲(chǔ)結(jié)構(gòu) 存儲(chǔ)數(shù)據(jù) 故障診斷 日志服務(wù) 原始數(shù)據(jù) 資源提供 存儲(chǔ) | ||
1.一種基于Spark的應(yīng)用軟件運(yùn)行日志的收集與服務(wù)處理系統(tǒng),其特征在于,包括日志數(shù)據(jù)資源層的日志收集服務(wù)單元,日志數(shù)據(jù)服務(wù)層的日志數(shù)據(jù)存儲(chǔ)服務(wù)單元與日志數(shù)據(jù)預(yù)處理服務(wù)單元,日志數(shù)據(jù)應(yīng)用層的用戶獲取日志數(shù)據(jù)服務(wù)單元,其中:
日志收集服務(wù)單元:用于采集日志數(shù)據(jù)資源層上應(yīng)用軟件運(yùn)行中生成的的原始日志數(shù)據(jù);
日志數(shù)據(jù)預(yù)處理服務(wù)單元:用于將原始日志數(shù)據(jù)根據(jù)需求將不必要的信息剔除,留下用戶需要的消息,包括對(duì)原始數(shù)據(jù)做出以下三方面預(yù)處理工作:數(shù)據(jù)過濾、數(shù)據(jù)去重與日志記錄分段;
日志數(shù)據(jù)存儲(chǔ)服務(wù)單元:用于負(fù)責(zé)對(duì)原始數(shù)據(jù)以及預(yù)處理后的數(shù)據(jù)進(jìn)行存儲(chǔ);
用戶獲取日志數(shù)據(jù)服務(wù)單元:用于提供多條件查詢服務(wù)接口,向用戶提供查詢服務(wù)。
2.一種基于Spark的應(yīng)用軟件運(yùn)行日志的收集與服務(wù)處理方法,其特征在于,包括如下步驟:
步驟1:日志收集服務(wù)采用分布式收集策略收集原始日志數(shù)據(jù);
步驟2:日志數(shù)據(jù)預(yù)處理服務(wù)對(duì)收集到的原始日志數(shù)據(jù)進(jìn)行預(yù)處理;
步驟3:日志數(shù)據(jù)存儲(chǔ)服務(wù)接受原始日志數(shù)據(jù)和預(yù)處理后的日志數(shù)據(jù)分別存放在不同的數(shù)據(jù)庫中;
步驟4:用戶獲取日志數(shù)據(jù)服務(wù),其用于提供多條件查詢服務(wù)接口,向用戶提供查詢服務(wù)。
3.根據(jù)權(quán)利要求2所述的一種基于Spark的應(yīng)用軟件運(yùn)行日志的收集與服務(wù)處理方法,其特征在于,所述的步驟1包含以下步驟:
步驟1.1:日志收集服務(wù)采用failover方式連接日志服務(wù)節(jié)點(diǎn),會(huì)自動(dòng)選擇可用的節(jié)點(diǎn)連接;當(dāng)日志服務(wù)節(jié)點(diǎn)集群中某個(gè)節(jié)點(diǎn)出現(xiàn)問題,則會(huì)把收集到的日志數(shù)據(jù)傳遞給其他服務(wù)節(jié)點(diǎn);當(dāng)集群消息服務(wù)節(jié)點(diǎn)不可用時(shí),將自動(dòng)通過failover選擇其他可用的消息服務(wù)節(jié)點(diǎn)處理;
步驟1.2:進(jìn)行日志數(shù)據(jù)收集時(shí),日志收集模塊首先設(shè)置好日志文件路徑,日志數(shù)據(jù)收集工作會(huì)在各個(gè)子節(jié)點(diǎn)上完成,收集完成后匯聚合成一個(gè)大的日志數(shù)據(jù)集,這里為了滿足用戶對(duì)于日志數(shù)據(jù)的需求,每個(gè)子節(jié)點(diǎn)上設(shè)定了一個(gè)過濾器;
步驟1.3:在開始收集前,首先確定收集日志的數(shù)據(jù)源,當(dāng)確定數(shù)據(jù)源后,判斷master節(jié)點(diǎn)是否啟動(dòng),如果沒有啟動(dòng),則通過修改配置文件來啟動(dòng)master節(jié)點(diǎn);如果啟動(dòng)了則選擇master節(jié)點(diǎn),并根據(jù)系統(tǒng)需求決定使用一個(gè)還是多個(gè)master節(jié)點(diǎn),master節(jié)點(diǎn)啟動(dòng)后,設(shè)置agent節(jié)點(diǎn),用戶根據(jù)自身需求定制agent節(jié)點(diǎn),定制包括三個(gè)方面,定制source,實(shí)時(shí)數(shù)據(jù)的來源,channel即實(shí)時(shí)日志數(shù)據(jù)的緩存的通道,sink即實(shí)時(shí)數(shù)據(jù)的輸出;設(shè)置包括各個(gè)source,channel以及sink的名字,類型以及它的屬性;設(shè)置完成后進(jìn)行agent的連接,完成后啟動(dòng)所有agent節(jié)點(diǎn)開始日志數(shù)據(jù)的收集工作。
4.根據(jù)權(quán)利要求2所述的一種基于Spark的應(yīng)用軟件運(yùn)行日志的收集與服務(wù)處理方法,其特征在于,所述的步驟2包含以下步驟:
步驟2.1:日志數(shù)據(jù)預(yù)處理服務(wù)對(duì)日志數(shù)據(jù)進(jìn)行的預(yù)處理,包括對(duì)原始數(shù)據(jù)做出以下三方面預(yù)處理工作:數(shù)據(jù)過濾、數(shù)據(jù)去重與日志記錄分段;
步驟2.2:在經(jīng)過簡(jiǎn)單的預(yù)處理后,選擇使用文本分類算法對(duì)日志數(shù)據(jù)進(jìn)行數(shù)據(jù)分類處理,TFIDF算法負(fù)責(zé)構(gòu)建VSM模型來完成文本向量化,然后通過KNN算法來實(shí)現(xiàn)數(shù)據(jù)分類。
5.根據(jù)權(quán)利要求2所述的一種基于Spark的應(yīng)用軟件運(yùn)行日志的收集與服務(wù)處理框架,其特征在于,步驟2.1中,日志數(shù)據(jù)預(yù)處理分為三個(gè)子部分來完成,具體是:
步驟A、首先是數(shù)據(jù)過濾部分,一個(gè)原始日志數(shù)據(jù)集中會(huì)包含大量不必要的記錄,需要對(duì)原始日志數(shù)據(jù)進(jìn)行過濾處理;
步驟B、其次是日志去重部分,一個(gè)原始日志數(shù)據(jù)集中會(huì)包含大量重復(fù)的記錄,例如在遇到遠(yuǎn)程服務(wù)請(qǐng)求中斷時(shí),會(huì)多次返回相同的日志記錄,這些記錄只是重復(fù)了第一條返回的日志記錄,對(duì)于用戶進(jìn)行后續(xù)的日志數(shù)據(jù)分析沒有幫助,因此需要將重復(fù)的日志記錄去除;
步驟C、最后是日志記錄分類處理,一般日志數(shù)據(jù)格式:時(shí)間-日志等級(jí)-服務(wù)名稱-發(fā)生的事件,這樣一條原始日志數(shù)據(jù)用戶無法進(jìn)行閱讀,因此需要對(duì)日志記錄進(jìn)行分類,不同的分類代表不同的含義。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810091898.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種日志處理方法、裝置及數(shù)據(jù)庫系統(tǒng)
- 日志去重方法和系統(tǒng)、內(nèi)容分發(fā)網(wǎng)絡(luò)系統(tǒng)
- 一種基于Spark的應(yīng)用軟件運(yùn)行日志的收集與服務(wù)處理系統(tǒng)及方法
- 一種網(wǎng)絡(luò)日志數(shù)據(jù)同步系統(tǒng)及方法
- 一種日志數(shù)據(jù)處理方法及系統(tǒng)
- 日志數(shù)據(jù)收集方法、日志數(shù)據(jù)收集裝置、存儲(chǔ)介質(zhì)和日志數(shù)據(jù)收集系統(tǒng)
- 一種電力信息系統(tǒng)多源日志數(shù)據(jù)處理方法
- 一種日志數(shù)據(jù)壓縮方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種日志數(shù)據(jù)收集方法及日志數(shù)據(jù)收集系統(tǒng)
- 計(jì)算機(jī)系統(tǒng)的日志數(shù)據(jù)處理方法
- 智能終端中應(yīng)用軟件的管理系統(tǒng)、裝置以及方法
- 應(yīng)用軟件獲取方法、瀏覽器和應(yīng)用商店服務(wù)器
- 應(yīng)用軟件智能下載方法、裝置和系統(tǒng)
- 一種應(yīng)用軟件的篩選方法及服務(wù)設(shè)備
- 應(yīng)用軟件的信息更新方法、終端和計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種應(yīng)用軟件升級(jí)方法、終端、系統(tǒng)
- 一種應(yīng)用軟件的異構(gòu)方法及系統(tǒng)
- 一種應(yīng)用軟件的檢測(cè)方法及計(jì)算設(shè)備
- 一種應(yīng)用軟件管理方法及系統(tǒng)
- 一種應(yīng)用軟件的檢測(cè)方法及計(jì)算設(shè)備
- 一種基于精簡(jiǎn)策略的集群系統(tǒng)的日志管理優(yōu)化方法
- 日志分離方法及裝置
- 日志服務(wù)器處理日志的方法和裝置
- 一種基于負(fù)載均衡的文件系統(tǒng)日志模型
- 日志生成方法、應(yīng)用服務(wù)器、日志服務(wù)器及日志生成系統(tǒng)
- 一種多線程日志輸出的方法及裝置
- 一種日志分析方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 日志解析方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 日志處理方法及設(shè)備
- 一種日志檢測(cè)方法、裝置、終端及服務(wù)器
- 信息服務(wù)系統(tǒng)
- 服務(wù)處理裝置、服務(wù)處理系統(tǒng)和服務(wù)處理系統(tǒng)的元數(shù)據(jù)保管方法
- 用于增強(qiáng)引導(dǎo)時(shí)間的方法和系統(tǒng)
- 車聯(lián)網(wǎng)智能交通系統(tǒng)及車載終端
- 信息處理裝置、服務(wù)處理裝置、信息處理方法、程序、以及信息處理系統(tǒng)
- 一種服務(wù)型軟件系統(tǒng)及軟件服務(wù)方法
- 一種服務(wù)處理系統(tǒng)和請(qǐng)求處理方法
- 業(yè)務(wù)問題處理系統(tǒng)及工作方法
- 一種基于計(jì)算人工智能企業(yè)數(shù)據(jù)分析系統(tǒng)
- 訂單數(shù)據(jù)的處理方法、裝置及電子設(shè)備





