[發明專利]基于MapReduce的FTP分布式采集方法在審
| 申請號: | 201710012512.3 | 申請日: | 2017-01-09 |
| 公開(公告)號: | CN106789324A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 程永新;謝濤;廖德輝 | 申請(專利權)人: | 上海輕維軟件有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L29/06;H04L29/08;G06F9/46 |
| 代理公司: | 上海科律專利代理事務所(特殊普通合伙)31290 | 代理人: | 袁亞軍,金碎平 |
| 地址: | 200331 上海市普陀區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 mapreduce ftp 分布式 采集 方法 | ||
1.一種基于MapReduce的FTP分布式采集方法,其特征在于,包括如下步驟:
S1)預先配置好多臺FTP服務器信息和日志文件路徑,并將配置信息存儲到Hadoop的HDFS中作為MapReduce的數據輸入;
S2)設置MapReduce的輸入目錄和Reduce任務數;
S3)利用MapReduce將不同的日志記錄分發到不同的HDFS集群節點進行處理;
S4)每個HDFS集群節點讀取到FTP服務器信息之后,使用賬號密碼連接FTP服務器,展開預先配置好的日志文件路徑,通過IO流將文件寫入到HDFS中,實現多個HDFS集群節點同時采集多臺FTP服務器的日志信息。
2.如權利要求1所述的基于MapReduce的FTP分布式采集方法,其特征在于,所述步驟S1)將配置信息編寫成文本信息,每一行對應一臺FTP服務器,每一行文本包含FTP服務器IP、端口、賬號、密碼、日志路徑和日志編號,所述日志編號按行依次采用1、2、3、…n等順序排列,n為自然數。
3.如權利要求2所述的基于MapReduce的FTP分布式采集方法,其特征在于,所述步驟S2)指定FTP服務器的臺數為Reduce任務數,所述步驟S3)先將HDFS集群節點數和整型數的上限值進行與運算,再利用日志編號對Reduce任務數取余,然后采用Hadoop中的分區類HashPartitioner將不同的日志記錄分發到不同的HDFS集群節點。
4.如權利要求1所述的基于MapReduce的FTP分布式采集方法,其特征在于,所述步驟S4)中的每個HDFS集群節點采用Apache FTP客戶端連接到FTP服務器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海輕維軟件有限公司,未經上海輕維軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710012512.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:圖像拍攝設備及其圖像拍攝方法
- 下一篇:用于產生結果圖像的方法和光學器件





