[發(fā)明專利]基于MapReduce的FTP分布式采集方法在審
| 申請?zhí)枺?/td> | 201710012512.3 | 申請日: | 2017-01-09 |
| 公開(公告)號: | CN106789324A | 公開(公告)日: | 2017-05-31 |
| 發(fā)明(設(shè)計)人: | 程永新;謝濤;廖德輝 | 申請(專利權(quán))人: | 上海輕維軟件有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L29/06;H04L29/08;G06F9/46 |
| 代理公司: | 上海科律專利代理事務(wù)所(特殊普通合伙)31290 | 代理人: | 袁亞軍,金碎平 |
| 地址: | 200331 上海市普陀區(qū)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 mapreduce ftp 分布式 采集 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種遠(yuǎn)程數(shù)據(jù)采集方法,尤其涉及一種基于MapReduce的FTP分布式采集方法。
背景技術(shù)
目前常用的FTP下載遠(yuǎn)程服務(wù)器上面的數(shù)據(jù)有如下幾種方式:
1)單線程,使用Apache FTP下載遠(yuǎn)程服務(wù)器的數(shù)據(jù);
2)多線程,使用Apache FTP,啟用多個線程,多FTP Client下載遠(yuǎn)程服務(wù)器的數(shù)據(jù);
3)部署多個服務(wù),使用Apache FTP,啟動多個線程,多FTP Client下載遠(yuǎn)程服務(wù)器的數(shù)據(jù)。
現(xiàn)有技術(shù)的主要缺點如下:
1)使用Apache FTP單線程下載遠(yuǎn)程服務(wù)器的數(shù)據(jù)時,采集速度明顯不足,帶寬和IO速率都不能發(fā)揮出比較高的性能,所以采集速度明顯不高。
2)使用Apache FTP多線程下載遠(yuǎn)程服務(wù)器的數(shù)據(jù)時,采集速度明顯提升,帶寬和IO速率等都發(fā)揮出高性能,采集速度受限于磁盤IO的性能,帶寬等因素。
3)部署多個服務(wù),使用Apache FTP多線程下載遠(yuǎn)程服務(wù)器的數(shù)據(jù),多個節(jié)點同時采集,采集速度應(yīng)該達(dá)到最優(yōu)。但是要在多臺服務(wù)部署采集應(yīng)用,維護(hù)起來比較麻煩。
由上可見,現(xiàn)有的采集遠(yuǎn)程服務(wù)器上的數(shù)據(jù),在大數(shù)據(jù)的環(huán)境下,每天幾十G或者幾個T的數(shù)據(jù)生成速度,沒有一個理想的采集速度,肯定是滿足不了需求的。傳統(tǒng)的單線程采集慢,部署多應(yīng)用多線程采集,維護(hù)比較麻煩。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算,它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。當(dāng)前的軟件實現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(歸約)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。MapReduce的一個經(jīng)典實例是Hadoop,用于處理大型分布式數(shù)據(jù)庫。因此,有必要提供一種基于MapReduce的FTP分布式采集方法。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種基于MapReduce的FTP分布式采集方法,,只需要啟動一個采集服務(wù)即可實現(xiàn)FTP多線程采集,能夠提升采集速度并且簡化維護(hù)工作。
本發(fā)明為解決上述技術(shù)問題而采用的技術(shù)方案是提供一種基于MapReduce的FTP分布式采集方法,包括如下步驟:S1)預(yù)先配置好多臺FTP服務(wù)器信息和日志文件路徑,并將配置信息存儲到Hadoop的HDFS中作為MapReduce的數(shù)據(jù)輸入;S2)設(shè)置MapReduce的輸入目錄和Reduce任務(wù)數(shù);S3)利用MapReduce將不同的日志記錄分發(fā)到不同的HDFS集群節(jié)點進(jìn)行處理;S4)每個HDFS集群節(jié)點讀取到FTP服務(wù)器信息之后,使用賬號密碼連接FTP服務(wù)器,展開預(yù)先配置好的日志文件路徑,通過IO流將文件寫入到HDFS中,實現(xiàn)多個HDFS集群節(jié)點同時采集多臺FTP服務(wù)器的日志信息。
上述的基于MapReduce的FTP分布式采集方法,其中,所述步驟S1)將配置信息編寫成文本信息,每一行對應(yīng)一臺FTP服務(wù)器,每一行文本包含F(xiàn)TP服務(wù)器IP、端口、賬號、密碼、日志路徑和日志編號,所述日志編號按行依次采用1、2、3、…n等順序排列,n為自然數(shù)。
上述的基于MapReduce的FTP分布式采集方法,其中,所述步驟S2)指定FTP服務(wù)器的臺數(shù)為Reduce任務(wù)數(shù),所述步驟S3)先將HDFS集群節(jié)點數(shù)和整型數(shù)的上限值進(jìn)行與運算,再利用日志編號對Reduce任務(wù)數(shù)取余,然后采用Hadoop中的分區(qū)類HashPartitioner將不同的日志記錄分發(fā)到不同的HDFS集群節(jié)點。
上述的基于MapReduce的FTP分布式采集方法,其中,所述步驟S4)中的每個HDFS集群節(jié)點采用Apache FTP客戶端連接到FTP服務(wù)器。
本發(fā)明對比現(xiàn)有技術(shù)有如下的有益效果:本發(fā)明提供的基于MapReduce的FTP分布式采集方法,利用MapReduce的分布式的工作原理,結(jié)合Apache FTP多線程采集,采集速度跟多應(yīng)用多線程差不多,但是只需要啟動一個采集服務(wù)即可,從而提升了速度并且也簡化了維護(hù)工作。
附圖說明
圖1為本發(fā)明基于MapReduce的FTP分布式采集流程圖;
圖2為本發(fā)明基于MapReduce的FTP分布式采集系統(tǒng)架構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步的描述。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海輕維軟件有限公司,未經(jīng)上海輕維軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710012512.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種處理串行任務(wù)的數(shù)據(jù)處理裝置及方法
- 一種將MapReduce轉(zhuǎn)換為SQL的方法和裝置
- 一種基于MapReduce的數(shù)據(jù)處理方法和裝置
- MapReduce應(yīng)用的相關(guān)參數(shù)的配置方法和裝置
- MapReduce作業(yè)處理系統(tǒng)、服務(wù)器及處理方法
- 一種考慮任務(wù)相關(guān)性的Hive優(yōu)化方法及系統(tǒng)
- 一種運行MapReduce作業(yè)的方法、裝置及系統(tǒng)
- 一種數(shù)據(jù)查詢的優(yōu)化方法和裝置
- 一種Sqoop集成多版本HBase的方法及裝置
- 一種計算HiveSql執(zhí)行進(jìn)度的方法





