[發明專利]一種分布式數據流處理方法及其系統有效
| 申請號: | 201110378247.3 | 申請日: | 2011-11-24 |
| 公開(公告)號: | CN103136217A | 公開(公告)日: | 2013-06-05 |
| 發明(設計)人: | 張旭;楊志雄;徐家;鄧中華 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 隆天國際知識產權代理有限公司 72003 | 代理人: | 張浴月;張龍哺 |
| 地址: | 開曼群島大開曼*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布式 數據流 處理 方法 及其 系統 | ||
技術領域
本申請涉及分布式數據處理,尤其涉及一種用于處理大數據量的分布式數據流處理方法及其系統。
背景技術
目前,數據流處理成為數據挖掘、數據分析的主要方式。例如,網站日志就是一個大數據量的數據流。再例如,電子商務網站中不斷增加的商品發布信息,不斷增加的手機短信發送記錄等等。這樣的數據流具有如下特點:(1)數據量大;(2)每條信息中,具有要分析特征的ID(標識符);(3)具有時間屬性,即時序性。
數據流分析通常要求實時、快速,使得系統能夠根據具體用戶當前行為做出實時響應。例如,日志的實時分析可以把握用戶的當前狀態,最近的訪問行為,可以有效地提高推薦的精準度,或實時地反作弊。而如何快速分析數據流,尤其是在數據量很大的情況下,滿足實時要求一直是技術上的難點。
通常,現有的分布式數據流處理系統的基本原理如圖1所示,原始數據流S被分配給多個功能模塊F。多個功能模塊F同時進行處理,并將處理后的結果都發送給數據整合模塊I,由數據整合模塊I進行整合并輸出整合后的數據。然而在現有的分布式數據流處理系統中存在如下缺陷:
(1)對數據流進行處理時,當數據量非常大的時候,數據處理、數據分析變得十分耗時。而現有的分布式數據流處理系統一般采用共享存儲模式,即,不同模塊之間,尤其是上下游模塊之間交互數據的方式是模塊A的結果放到存儲(數據庫,文件等)中,然后模塊B到存儲中讀取數據,由此實現模塊A和模塊B的數據交互,這種模式不能實時計算,只能做到準實時。也就是說,當速度成為瓶頸,大部分現有的處理技術不能滿足實時數據流的增長速度,數據延遲比較大,使得數據分析只能離線進行,導致數據分析、數據挖掘延遲,不能對用戶的當前或近期行為做出反應。
(2)對于大數據量的處理,分布式并行計算已經成為趨勢。而現有的并行計算系統,基本上都僅限于功能復制的架構,即,系統實現并行計算的方法是所有的運算模塊是同樣的功能,運行同樣的程序,只是運算數據的不同部分,以此達到并行計算的目的,因此無法實現更細粒度的并行,也無法實現模塊化和模塊的熱插拔,并且不利于維護。
發明內容
本申請提供了一種分布式數據流處理方法,所述方法包括:將原始數據流分割成實時數據流和歷史數據流;并行處理所述實時數據流和所述歷史數據流,并分別產生各自的處理結果;以及將所產生的處理結果進行整合。
優選地,在處理所述實時數據流的步驟中,對所述實時數據流按維度切分并進行并行處理。
優選地,處理所述實時數據流的步驟包括:將所述實時數據流切分成多個數據塊;并行地將所述多個數據塊的每一個切分成多個數據單元,然后將所述多個數據單元分別發送給多個不同的功能模塊進行并行處理;以及將并行處理的結果進行匯總。
優選地,在處理所述歷史數據流的步驟中,對所述歷史數據流按維度切分并進行并行處理。
本申請還提供了一種分布式數據流處理裝置,所述裝置包括:數據識別模塊,用于將原始數據流分割成實時數據流和歷史數據流;并行處理模塊,用于并行處理所述實時數據流和所述歷史數據流,并分別產生各自的處理結果;以及數據整合模塊,用于將所產生的處理結果進行整合。
優選地,所述并行處理模塊在處理所述實時數據流時,對所述實時數據流按維度切分并進行并行處理。
優選地,處理所述實時數據處理系統包括:橫向切分模塊,用于將所述實時數據流切分成多個數據塊;多個縱向切分模塊,用于并行地將所述多個數據塊的每一個切分成多個數據單元,然后將所述多個數據單元分別發送給多個不同的功能模塊進行并行處理;以及結果匯總模塊,用于將并行處理的結果進行匯總。
優選地,所述并行處理模塊在處理所述歷史數據流時,對所述歷史數據流按維度切分并進行并行處理。
根據本申請的分布式數據流處理方法,通過按時序性和按維度對數據流進行多次分割和切分,即利用時序性,采用多層結構,對數據分時段處理,使用新的分布式架構,利用不同維度,對信息流進行縱向切分。使得大數據量的實時計算成為可能。實時數據流的運算能夠最大限度地以分布式并行處理,同時保證了大數據量處理和高實時性,提高了系統的反應速度。
附圖說明
下面將參照所附附圖來描述本申請的實施例,其中:
圖1示例性示出了現有技術的分布式數據流處理系統的示意圖;
圖2示例性示出了本申請的大數據量分布式數據流處理系統的一個實施例的示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110378247.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:冷風扇的取水器及具有該取水器的冷風扇
- 下一篇:一種空調器室外機





