[發明專利]基于移動互聯網海量信息的流式預處理系統及其方法在審

申請號：	201510818371.5	申請日：	2015-11-23
公開（公告）號：	CN105468735A	公開（公告）日：	2016-04-06
發明（設計）人：	嚴雄偉	申請（專利權）人：	武漢虹旭信息技術有限責任公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	武漢宇晨專利事務所 42001	代理人：	黃瑞棠
地址：	430074 湖***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于移動互聯網海量信息預處理系統及其方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于移動互聯網海量信息的流式預處理系統，包括移動互聯網000，其特征在于：

設置有接口機（100）、Kafka集群（200）、Spark集群（300）和Hadoop集群（400）；

移動互聯網（000）、接口機（100）、Kafka集群（200）、Spark集群（300）和Hadoop集群（400）依次連通。

2.按權利要求1所述的流式預處理系統，其特征在于：

所述的接口機（100）包括第1接口機（110）、第2接口機（120）……第M接口機（1M0），M是自然數，1≤M≤5；

每個接口機內嵌有依次交互的文件輪詢模塊（101）、文件解析模塊（102）和數據緩存模塊（103）。

3.按權利要求1所述的流式預處理系統，其特征在于：

所述的Kafka集群（200）包括第1Kafka節點（210）、第2Kafka節點（220）……第NKafka節點（2N0），N為自然數，1≤N≤10；；

每個Kafka節點是一種內嵌有Kafka開源消息系統的Linux服務器，各節點之間使用 Zookeeper協調管理。

4.按權利要求1所述的流式預處理系統，其特征在于：

所述的Spark集群（300）包括Spark主節點（3A0）和分別與其連接的第1Spark工作節點（310）、第2Spark工作節點（320）……第OSpark工作節點（3O0），O為自然數，1≤O≤10；

每個節點是一種內嵌有Spark開源計算系統的Linux服務器，各節點之間使用 Zookeeper協調管理；

Spark主節點（3A0）內嵌有SparkStreaming控制模塊（3A1）；

SparkStreaming控制模塊（3A1）讀取Kafka集群中的數據，生成預處理任務分發給工作節點，自動控制預處理日志，寫入HDFS；

每個工作節點內嵌有數據預處理模塊（311）；

數據預處理模塊（311）按照指定的流程處理數據，最終寫入HBase。

5.按權利要求1所述的流式預處理系統，其特征在于：

所述的Hadoop集群（400）包括第1Hadoop節點（410）、第2Hadoop節點（420）……第 PHadoop節點（4P0），P為自然數，1≤P≤10；

每個節點是一種Hadoop開源軟件的Linux服務器，內嵌有預處理的HDFS日志存儲目錄（401）和HBase數據庫（402）。

6.基于權利要求1-5所述系統的流式預處理方法，其特征在于包括以下步驟：

①移動互聯網海量數據以文件的形式通過FTP的方式上傳到接口機指定目錄；

②接口機文件輪詢模塊定時掃描接口機指定目錄，獲取目錄中的文件列表，發送至文件解析模塊；

③文件解析模塊解析文件并格式化其內容，將其發送至流數據緩存模塊；

④流數據緩存模塊通過Zookeeper連接Kafka集群，將數據批量寫入Kafka集群；

⑤Spark主節點中的SparkStreaming控制模塊通過Zookeeper連接Kafka集群，讀取 Kafka集群中緩存的數據，存入HDFS日志存儲目錄，生成預處理任務分發至各個Spark工作節點，并周期性地設置檢查點，如果任務執行失敗，可以通過讀取HDFS存儲的日志重新執行任務；

⑥預處理模塊按照指定的處理流程處理數據，最終寫入HBase數據庫。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于武漢虹旭信息技術有限責任公司，未經武漢虹旭信息技術有限責任公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201510818371.5/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】