[發明專利]一種基于預運算的分布式OLAP分析方法及系統在審
| 申請號: | 201710402937.5 | 申請日: | 2017-06-01 |
| 公開(公告)號: | CN107301206A | 公開(公告)日: | 2017-10-27 |
| 發明(設計)人: | 林育蓓;古振威;張星明;梁桂煌;陳霖;吳世豪 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州市華學知識產權代理有限公司44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 運算 分布式 olap 分析 方法 系統 | ||
1.一種基于預運算的分布式OLAP分析方法,其特征在于:首先,在服務器集群上搭建Hadoop平臺,在HDFS基礎上構建分布式數據倉庫;然后基于分布式數據倉庫選擇事實表和關聯一組維表構建數據模型,根據數據模型定義數據立方體;再對給定的數據立方體啟動數據立方體預運算任務,將作業提交到Hadoop集群中運行進行數據立方體預構建,并在構建過程中對作業運行情況進行實時監控,及時掌握作業運行狀態,將計算好的中間結果保存到分布式鍵值存儲系統中供后續分析查詢;而后將用戶多維操作轉換為MDX語句并提交,根據MDX語句進行緩存檢查,如果查詢結果命中則直接返回結果集,否則,執行MDX查詢語句,將MDX查詢轉換為SQL進行查詢;接著將SQL生成的執行計劃轉換為對數據立方體的key-value查詢操作;最后,分布式鍵值存儲系統根據查詢操作返回查詢結果集,并將結果集以數據表或者圖表的形式返回給用戶。
2.根據權利要求1所述的一種基于預運算的分布式OLAP分析方法,其特征在于,所述數據立方體預構建流程按如下步驟執行:
1)根據cube的定義將數據倉庫中源數據表中所有相關的表連接后提取相關數據,從而生成原始數據并插入到一個臨時表中;
2)生成原始數據表后,這些數據文件存儲在HDFS中,但文件大小不一甚至有些文件是空的,為了避免后續的mapreduce任務受數據文件大小不同和分布不均的影響導致任務執行緩慢的情況,需要對表數據進行重新分配來均衡數據文件的分布;
3)根據上一步生成的表計算表中度量的distinct值從而生成事實表并寫入文件;
4)依據上一步生成的distinct column文件和維度表計算各個維度的distinct值以構建字典表,查詢字典表能夠獲得維成員值;
5)通過臨時表計算所有維度可能的組合生成Base Cuboid文件;
6)計算各層Cuboid文件,從第N層開始計算Cuboid文件,每一步都以前一步的結果作為輸入,然后從中去除某個維度后進行聚合,生成一個子Cuboid,直到第0層Cuboid文件計算完成;
7)將順序文件格式的Cuboid文件轉換為HFile文件,避免Cuboid文件頻繁地直接插入而影響HBase的性能,也減少了大量的磁盤IO操作;
8)將HFile文件加載到HTable中從而將結果存儲到HBase中,同時將原始文件刪除。
3.一種基于預運算的分布式OLAP分析系統,其特征在于,包括:
cube構建模塊,該cube構建模塊包括源數據加載單元、數據模型定義單元、數據立方體預構建單元;所述源數據加載單元用于配置數據源連接信息從分布式數據倉庫中加載原始數據表信息到分析系統中;所述數據模型定義單元用于定義事實表和一組維表,構建面向主題的星狀模型或雪花型模型結構,根據模型結構定義相應的數據立方體,包括cube名稱、維度信息、度量信息,并將數據立方體相關元數據保存到系統中;所述cube預構建單元用于根據數據立方體的定義從數據倉庫中讀取原始數據通過mapreduce計算生成Htable并將其加載到HBase中;
多維查詢模塊,該多維查詢模塊包括MDX轉換單元、NoSQL緩存單元和OLAP查詢單元;所述MDX轉換單元用于將多維操作語言MDX轉換為SQL;所述NoSQL緩存單元用于管理用戶已經查詢過的結果集;所述OLAP查詢單元用于將SQL進行解析轉換成對預先構建好的數據立方體的key-value查詢操作以獲取結果并返回給用戶;
分析結果可視化模塊,該分析結果可視化模塊包括多維查詢單元和結果顯示單元;所述多維查詢單元負責將用戶操作轉換為對應的MDX語句,并將其發送到OLAP服務器;所述結果顯示單元負責將查詢結果集以數據表或圖表形式進行前端展示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710402937.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種大數據分布式實時查詢方法及系統
- 下一篇:一種解析XML的方法及裝置





