[發(fā)明專利]基于Spark和Flume的埋點數(shù)據(jù)采集方法在審
| 申請?zhí)枺?/td> | 202211035102.8 | 申請日: | 2022-08-26 |
| 公開(公告)號: | CN115454795A | 公開(公告)日: | 2022-12-09 |
| 發(fā)明(設(shè)計)人: | 莊力;于揚;張立斌;楊斌 | 申請(專利權(quán))人: | 中遠海運科技(北京)有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34;G06F16/18;G06F16/215;G06F16/28 |
| 代理公司: | 北京衛(wèi)智易創(chuàng)專利代理事務(wù)所(普通合伙) 16015 | 代理人: | 朱春野 |
| 地址: | 100010 北京市東城*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 spark flume 數(shù)據(jù) 采集 方法 | ||
1.基于Spark和Flume的埋點數(shù)據(jù)采集方法,其特征在于,包括步驟:
S1、應(yīng)用程序埋點;
S2、flume日志采集系統(tǒng)的source層獲取埋點數(shù)據(jù),并通過攔截器將埋點數(shù)據(jù)發(fā)送到channel層;
S3、flume日志采集系統(tǒng)的channel層清洗埋點數(shù)據(jù),并將清洗后的埋點數(shù)據(jù)發(fā)送到sink層;
S4、flume日志采集系統(tǒng)的sink層將埋點數(shù)據(jù)發(fā)送到數(shù)據(jù)接收方;
S5、數(shù)據(jù)接收方啟動spark計算任務(wù),生成計算結(jié)果,并將計算結(jié)果發(fā)送到hdfs文件系統(tǒng)。
2.根據(jù)權(quán)利要求1所述的基于Spark和Flume的埋點數(shù)據(jù)采集方法,其特征在于,步驟S2中,flume日志采集系統(tǒng)將不同格式的埋點數(shù)據(jù)分配至不同的source層。
3.根據(jù)權(quán)利要求2所述的基于Spark和Flume的埋點數(shù)據(jù)采集方法,其特征在于,步驟S2中,flume日志采集系統(tǒng)將不同格式的source層的埋點數(shù)據(jù)發(fā)送到不同的channel層。
4.根據(jù)權(quán)利要求3所述的基于Spark和Flume的埋點數(shù)據(jù)采集方法,其特征在于,步驟S3中,處理不同格式埋點數(shù)據(jù)的channel層將數(shù)據(jù)清洗后的埋點數(shù)據(jù)發(fā)送給不同格式埋點數(shù)據(jù)的sink層。
5.根據(jù)權(quán)利要求1所述的基于Spark和Flume的埋點數(shù)據(jù)采集方法,其特征在于,步驟S2中,所述攔截器對不同格式的數(shù)據(jù)源設(shè)置與不同格式相對應(yīng)的數(shù)據(jù)清洗規(guī)則,并進行數(shù)據(jù)清洗、過濾,并將清洗、過濾后的埋點數(shù)據(jù)進行分類處理;將無效的、不符合清洗與過濾規(guī)則的埋點數(shù)據(jù)輸出到無效埋點數(shù)據(jù)處理類channel層做丟棄處理,將符合清洗與過濾規(guī)則的有效埋點數(shù)據(jù)輸出到有效埋點數(shù)據(jù)處理類的channel層。
6.根據(jù)權(quán)利要求1所述的基于Spark和Flume的埋點數(shù)據(jù)采集方法,其特征在于,步驟S4中,flume日志采集系統(tǒng)中不同格式的sink層為不同的數(shù)據(jù)接收方提供差異化的匯聚數(shù)據(jù),將匯聚后的數(shù)據(jù)發(fā)送至不同的數(shù)據(jù)接收方。
7.根據(jù)權(quán)利要求1所述的基于Spark和Flume的埋點數(shù)據(jù)采集方法,其特征在于,步驟S2還包括:flume日志采集系統(tǒng)從sink層中獲取清洗后的數(shù)據(jù),并將數(shù)據(jù)推送到source層。
8.根據(jù)權(quán)利要求7所述的基于Spark和Flume的埋點數(shù)據(jù)采集方法,其特征在于,flume日志采集系統(tǒng)從多個sink層獲取清洗后的數(shù)據(jù),source層支持分布式的采集集群服務(wù),自動輸出匯聚后的數(shù)據(jù)。
9.根據(jù)權(quán)利要求1所述的基于Spark和Flume的埋點數(shù)據(jù)采集方法,其特征在于,flume日志采集系統(tǒng)中,一個source層、一個channel層和一個sink層構(gòu)成一個基本數(shù)據(jù)采集單元,多個基本數(shù)據(jù)采集單元作為java進程散落在多個主機進行埋點數(shù)據(jù)采集。
10.根據(jù)權(quán)利要求1所述的基于Spark和Flume的埋點數(shù)據(jù)采集方法,其特征在于,多個flume日志采集系統(tǒng)同時進行埋點數(shù)據(jù)采集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中遠海運科技(北京)有限公司,未經(jīng)中遠海運科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211035102.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種Spark平臺性能自動優(yōu)化方法
- 一種Spark作業(yè)的提交方法及裝置
- Spark性能優(yōu)化控制方法、裝置、設(shè)備及存儲介質(zhì)
- spark任務(wù)的提交方法、裝置和服務(wù)器
- Spark任務(wù)的提交方法、系統(tǒng)、客戶端及服務(wù)端
- 一種提交并守護spark任務(wù)的方法及裝置
- 用戶任務(wù)的處理方法、裝置、電子設(shè)備和計算機可讀介質(zhì)
- Spark任務(wù)處理方法及裝置
- 一種Spark應(yīng)用部署管理方法及相關(guān)設(shè)備
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品
- 一種基于Flume的解析半結(jié)構(gòu)化文本文件的數(shù)據(jù)的方法
- 一種基于Flume的分布式采集代理系統(tǒng)及其實現(xiàn)方法
- 一種基于flume服務(wù)器的數(shù)據(jù)備份容錯方法及系統(tǒng)
- 一種Flume集群的管理方法、裝置及系統(tǒng)
- 一種可視化的flume配置運行方法及裝置
- 一種實時計算方法、計算機存儲介質(zhì)及電子設(shè)備
- 一種flume代理安裝方法、系統(tǒng)及存儲介質(zhì)
- 一種基于Flume的數(shù)據(jù)采集與匯聚方法
- 一種Flume多線程測試的方法、系統(tǒng)及計算機存儲介質(zhì)
- 一種基于Flume的在線多方匯聚方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





