[發明專利]基于移動互聯網海量信息的流式預處理系統及其方法在審
| 申請號: | 201510818371.5 | 申請日: | 2015-11-23 |
| 公開(公告)號: | CN105468735A | 公開(公告)日: | 2016-04-06 |
| 發明(設計)人: | 嚴雄偉 | 申請(專利權)人: | 武漢虹旭信息技術有限責任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢宇晨專利事務所 42001 | 代理人: | 黃瑞棠 |
| 地址: | 430074 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 移動 互聯網 海量 信息 預處理 系統 及其 方法 | ||
技術領域
本發明屬于大數據領域,具體涉及基于移動互聯網海量信息的流式預處理系統及 其方法。
背景技術
近年來,移動運營商網絡已成為了天然的大數據貯存和流動的載體。移動互聯網 擁有的數據源豐富多樣,包括上網行為數據、位置數據、信令數據、微博數據、即時通信數 據、網頁、音頻數據、視頻文件和圖片等,且這些數據會不斷產生。為了能從這些流式數據中 實時地提取有用的信息,過濾掉無用的信息,往往需要對其進行快速處理,接著再以規范化 的形式存入數據中心,用以提供高效的查詢服務。
這類大數據服務對比一般的數據服務,有其自身的特點:首先,業務數據為大數 據,新到來的流式數據規模小,結構簡單;其次,數據流持續到達,業務數據持續增長,定期 更新;最后,需在大數據之上對流式數據作出快速處理。
目前,比較流行的數據處理技術方案是使用Hadoop的MapReduce編程模型, MapReduce不僅能并行處理大規模數據,而且擴展性很好,每增加一臺服務器,其就能將差 不多的計算能力接入到集群中。然而,MapReduce僅支持離線數據計算,即數據要處理,必須 先存儲,因此它并不適合海量流式信息的預處理這種對實時性要求很高的應用。
在流式數據處理方面,S4是一個受MapReduce啟發的分布式流式數據處理系統,但 是它主要用于解決搜索,錯誤探測,網絡交友等現實應用,并不適合移動互聯網海量信息的 提取、過濾操作。
發明內容
本發明的目的在于克服現有技術存在的缺點和不足,提供一種基于移動互聯網海 量信息的流式預處理系統及其方法,用以解決當前技術無法實時、可靠地處理流式數據的 問題。
實現本發明目的的技術方案是:
一、基于移動互聯網海量信息的流式預處理系統(簡稱系統)
本系統包括移動互聯網,設置有接口機、Kafka集群、Spark集群和Hadoop集群;
移動互聯網、接口機、Kafka集群、Spark集群和Hadoop集群依次連通。
二、基于移動互聯網海量信息的流式預處理方法(簡稱方法)
本方法包括以下步驟:
①移動互聯網海量數據以文件的形式通過FTP的方式上傳到接口機指定目錄;
②接口機文件輪詢模塊定時掃描接口機指定目錄,獲取目錄中的文件列表,發送至文 件解析模塊;
③文件解析模塊解析文件并格式化其內容,將其發送至流數據緩存模塊;
④流數據緩存模塊通過Zookeeper連接Kafka集群,將數據批量寫入Kafka集群;
⑤Spark主節點中的SparkStreaming控制模塊通過Zookeeper連接Kafka集群,讀取 Kafka集群中緩存的數據,存入HDFS日志存儲目錄,生成預處理任務分發至各個Spark工作 節點,并周期性地設置檢查點,如果任務執行失敗,可以通過讀取HDFS存儲的日志重新執行 任務;
⑥預處理模塊按照指定的處理流程處理數據,最終寫入HBase數據庫。
本發明具有下列優點和積極效果:
①彌補了MapReduce不支持流式數據處理的不足;
②處理速度快,且具有容錯性;
③通過整合分布式消息系統、分布式流式處理框架、hadoop分布式文件系統三種大數 據領域的技術,為其它大數據技術之間的模塊化整合提供了參考。
總之,本發明能夠對所有移動互聯網的海量信息進行實時處理,可以為運營商的 實時業務提供技術支持。
附圖說明
圖1是本系統的結構方框圖;
圖2是SparkStreaming控制模塊3A1讀取Kafka集群200中緩存的數據并生成預處理任 務的流程圖;
圖3是預處理模塊311按照指定流程處理數據的流程圖
其中:
000—移動互聯網;
100—接口機,
110—第1接口機,
120—第2接口機……
1M0—第M接口機,
M是自然數,1≤M≤5;
101—文件輪詢模塊,102—文件解析模塊,103—流數據緩存模塊;
200—Kafka集群,
210—第1Kafka節點,
220—第2Kafka節點……
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢虹旭信息技術有限責任公司,未經武漢虹旭信息技術有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510818371.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種商標預警的系統
- 下一篇:一種大規模RDF數據關聯路徑發現方法





