[發明專利]基于移動互聯網海量信息的流式預處理系統及其方法在審
| 申請號: | 201510818371.5 | 申請日: | 2015-11-23 |
| 公開(公告)號: | CN105468735A | 公開(公告)日: | 2016-04-06 |
| 發明(設計)人: | 嚴雄偉 | 申請(專利權)人: | 武漢虹旭信息技術有限責任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢宇晨專利事務所 42001 | 代理人: | 黃瑞棠 |
| 地址: | 430074 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 移動 互聯網 海量 信息 預處理 系統 及其 方法 | ||
1.一種基于移動互聯網海量信息的流式預處理系統,包括移動互聯網000,其特征在 于:
設置有接口機(100)、Kafka集群(200)、Spark集群(300)和Hadoop集群(400);
移動互聯網(000)、接口機(100)、Kafka集群(200)、Spark集群(300)和Hadoop集群 (400)依次連通。
2.按權利要求1所述的流式預處理系統,其特征在于:
所述的接口機(100)包括第1接口機(110)、第2接口機(120)……第M接口機(1M0),M是 自然數,1≤M≤5;
每個接口機內嵌有依次交互的文件輪詢模塊(101)、文件解析模塊(102)和數據緩存模 塊(103)。
3.按權利要求1所述的流式預處理系統,其特征在于:
所述的Kafka集群(200)包括第1Kafka節點(210)、第2Kafka節點(220)……第NKafka節 點(2N0),N為自然數,1≤N≤10;;
每個Kafka節點是一種內嵌有Kafka開源消息系統的Linux服務器,各節點之間使用 Zookeeper協調管理。
4.按權利要求1所述的流式預處理系統,其特征在于:
所述的Spark集群(300)包括Spark主節點(3A0)和分別與其連接的第1Spark工作節點 (310)、第2Spark工作節點(320)……第OSpark工作節點(3O0),O為自然數,1≤O≤10;
每個節點是一種內嵌有Spark開源計算系統的Linux服務器,各節點之間使用 Zookeeper協調管理;
Spark主節點(3A0)內嵌有SparkStreaming控制模塊(3A1);
SparkStreaming控制模塊(3A1)讀取Kafka集群中的數據,生成預處理任務分發給工 作節點,自動控制預處理日志,寫入HDFS;
每個工作節點內嵌有數據預處理模塊(311);
數據預處理模塊(311)按照指定的流程處理數據,最終寫入HBase。
5.按權利要求1所述的流式預處理系統,其特征在于:
所述的Hadoop集群(400)包括第1Hadoop節點(410)、第2Hadoop節點(420)……第 PHadoop節點(4P0),P為自然數,1≤P≤10;
每個節點是一種Hadoop開源軟件的Linux服務器,內嵌有預處理的HDFS日志存儲目錄 (401)和HBase數據庫(402)。
6.基于權利要求1-5所述系統的流式預處理方法,其特征在于包括以下步驟:
①移動互聯網海量數據以文件的形式通過FTP的方式上傳到接口機指定目錄;
②接口機文件輪詢模塊定時掃描接口機指定目錄,獲取目錄中的文件列表,發送至文 件解析模塊;
③文件解析模塊解析文件并格式化其內容,將其發送至流數據緩存模塊;
④流數據緩存模塊通過Zookeeper連接Kafka集群,將數據批量寫入Kafka集群;
⑤Spark主節點中的SparkStreaming控制模塊通過Zookeeper連接Kafka集群,讀取 Kafka集群中緩存的數據,存入HDFS日志存儲目錄,生成預處理任務分發至各個Spark工作 節點,并周期性地設置檢查點,如果任務執行失敗,可以通過讀取HDFS存儲的日志重新執行 任務;
⑥預處理模塊按照指定的處理流程處理數據,最終寫入HBase數據庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢虹旭信息技術有限責任公司,未經武漢虹旭信息技術有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510818371.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種商標預警的系統
- 下一篇:一種大規模RDF數據關聯路徑發現方法





