[發明專利]一種基于Flume與Alluxio的數據收集方法有效
| 申請號: | 201710391446.5 | 申請日: | 2017-05-27 |
| 公開(公告)號: | CN107220348B | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 苑曉龍;王紹成 | 申請(專利權)人: | 浪潮云信息技術股份公司 |
| 主分類號: | G06F16/13 | 分類號: | G06F16/13;G06F16/172;G06F16/174 |
| 代理公司: | 濟南舜源專利事務所有限公司 37205 | 代理人: | 張亮 |
| 地址: | 250000 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 flume alluxio 數據 收集 方法 | ||
1.一種基于Flume與Alluxio的數據收集方法,其特征在于,包括如下步驟:
步驟101,安裝部署并啟用層次存儲的Alluxio集群;
步驟102,設計實現flume-alluxio-sink數據下沉組件,并將設計實現的flume-alluxio-sink數據下沉組件的Jar包分發到Flume的每個節點機器的類加載路徑;
步驟103,配置數據收集的flume-alluxio-sink數據下沉組件的Type為alluxio;
步驟104,啟動所有Flume組件的Agent進程,即可使用基于Flume與Alluxio的數據快速收集方法;
所述步驟102中,flume-alluxio-sink組件的實現主要包括以下步驟:
步驟1021,Alluxio啟用分層存儲后需要配置分配、回收策略和預留空間;
步驟1022,設計實現繼承自AbstractSink抽象類并實現了Configurable接口的AlluxioEventSink類;
步驟1023,定義flume-alluxio-sink組件sink類型參數的值為alluxio;
步驟1024,AlluxioEventSink類實現Configurable接口的Configure(Contextcontext)方法讀取有關Alluxio的相關配置參數;
步驟1025,AlluxioEventSink類實現抽象類AbstractSink的process()方法,通過循環處理接收到的數據單元,將它們按照HDFS中對應的文件格式寫入Alluxio分布式內存文件系統;
步驟1026,針對HDFS中的不同文件類型,設計研發了HDFS中多種格式數據文件與byte[]數組或ByteBuffer二進制緩沖區數據轉換類;
步驟1027,Alluxio在將數據單元寫入Alluxio之前會依賴步驟1026所述的數據轉換類轉化數據類型。
2.根據權利要求1所述的基于Flume與Alluxio的數據收集方法,其特征在于:所述步驟1021中,采用輪詢調度分配策略,即分配數據塊到有空間的最高存儲層,存儲目錄通過輪詢調度選出;采用LRFU回收策略,即基于權重分配的最近最少使用和最不經常使用策略移除數據塊;每層存儲預留空間比例,MEM預留0.4,SSD預留0.2,HDD不啟用預留。
3.根據權利要求1所述的基于Flume與Alluxio的數據收集方法,其特征在于:所述步驟1024中,配置參數包括有:Alluxio的URI地址,文件路徑,文件類型,文件名稱生成策略,以及文件滾動策略。
4.根據權利要求1所述的基于Flume與Alluxio的數據收集方法,其特征在于:所述步驟1025中,HDFS中對應的文件格式包括文本、順序文件、Avro文件。
5.根據權利要求1所述的基于Flume與Alluxio的數據收集方法,其特征在于:所述步驟1026中,設計HDFS中文本、順序文件、Avro文件與byte[]數組或ByteBuffer二進制緩沖區數據轉換類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮云信息技術股份公司,未經浪潮云信息技術股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710391446.5/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





