[發明專利]一種多維度實時分析系統及方法在審
| 申請號: | 201710559410.3 | 申請日: | 2017-07-11 |
| 公開(公告)號: | CN107480189A | 公開(公告)日: | 2017-12-15 |
| 發明(設計)人: | 劉喆 | 申請(專利權)人: | 上海精數信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京睿邦知識產權代理事務所(普通合伙)11481 | 代理人: | 余玥君 |
| 地址: | 200062 上海市普*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多維 實時 分析 系統 方法 | ||
1.一種多維度實時分析系統,其包括日志收集單元、負載均衡單元、數據共享單元、實時計算單元和數據展示單元,其中所述實時計算單元包括:
spark數據讀取模塊,從數據共享單元中讀取數據以便做實時計算;
spark數據清洗模塊,清洗掉明顯異常的數據,減少計算量;
spark數據分拆模塊,把要計算的多維度的信息分別拆分出來;
spark數據聚合模塊,針對已經拆分好的數據,進行分布式的大規模聚合計算;
spark數據入庫模塊,將數據結果集分拆到互不影響的存儲中,使用spark的分布式技術,并發入庫。
2.根據權利要求1所述的系統,其中所述spark數據讀取模塊在應用邏輯中管理進度,每個讀取進程管理自己的進度,并持久化到本地的磁盤上。
3.根據權利要求1所述的系統,其中所述實時計算單元接受的外部數據源包括Flume、Kafka、Twitter、ZeroMQ、TCP Socket中的至少一種。
4.根據權利要求1所述的系統,其中所述多維度信息包括涉及廣告投放項目、廣告位置、媒體不同時間段的曝光和點擊次數中的一種或多種。
5.根據權利要求1所述的系統,其中所述負載均衡單元使用失效轉移的策略均衡負載。
6.根據權利要求1所述的系統,其中所述數據共享單元采用kafka集群作數據共享。
7.根據權利要求6所述的系統,其中kafka中寫入的數據,采用protoBuf格式。
8.根據權利要求1所述的系統,其中使用websocket技術將實時計算單元的聚合數據結果推送到數據展示單元展示。
9.一種多維度實時分析方法,其包括:
S110從各個數據源收集日志;
S120使用失效轉移的策略進行負載均衡;
S130采用kafka集群做數據共享;
S140利用spark-streaming對數據進行實時計算;
S150將計算得到的聚合數據進行交互式數據展示。
10.根據權利要求9所述的方法,其中步驟S140利用spark-streaming對數據進行實時計算包括以下分步驟:
S141從kafka stream中讀取數據;
S142清洗掉明顯異常的數據;
S143把要計算的多維度的信息分別拆分出來;
S144針對已經拆分好的數據,進行分布式的大規模聚合計算;
S145將數據結果集分拆到互不影響的存儲中,使用spark的分布式技術,并發入庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海精數信息科技有限公司,未經上海精數信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710559410.3/1.html,轉載請聲明來源鉆瓜專利網。





