[發明專利]一種基于MapReduce的并行數據立方構建方法在審
| 申請號: | 201910879241.0 | 申請日: | 2019-09-18 |
| 公開(公告)號: | CN110597929A | 公開(公告)日: | 2019-12-20 |
| 發明(設計)人: | 李曉濤;朱海平;金炯華;倪明堂;黃培;張衛平;吳淑敏 | 申請(專利權)人: | 廣東省智能機器人研究院 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/21;G06F16/23 |
| 代理公司: | 44102 廣州粵高專利商標代理有限公司 | 代理人: | 羅曉林;楊桂洋 |
| 地址: | 523000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 構建 等價 并行 數據立方結構 并行數據 高壓縮性 可擴展性 快速查詢 優化操作 增量更新 并行性 高壓縮 索引性 分割 索引 存儲 查詢 更新 | ||
一種基于MapReduce的并行數據立方構建方法,包括以下步驟:S1,Dwarf數據立方劃分,對Dwarf數據立方進行等價分割,劃分成為若干個子Dwarf數據立方;S2,并行Dwarf數據立方構建,根據等價分割后的子Dwarf數據立方,進行并行的建立、查詢、更新和優化操作,完成Dwarf數據立方的構建。本發明一方面結合了MapReduce框架的并行性和高可擴展性,另一方面結合了Dwarf數據立方結構的數據高壓縮性及數據的自索引性,既實現了數據立方的高壓縮存儲、提供快速的構造、增量更新操作,又克服了MapReduce機制沒有索引的劣勢,實現了數據立方上的快速查詢操作。
技術領域
本發明涉及一種數據壓縮方法,具體地說是一種基于MapReduce的并行數據立方構建方法。
背景技術
隨著數字技術和計算機信息化的普及和發展,大多數企業都采用了計算機進行管理和運營。這些計算機系統通常都具有強大的收集、存儲和處理數據的能力。生產監控數據、醫療數據、人口統計數據、財經數據和海洋數據等,這些日積月累的數據形成了一個巨大的“寶藏”。隨著市場競爭的加劇和信息社會需求的發展,從大量數據中挖掘規律性知識,指導制定生產和營銷策略,就顯得越來越重要。數據倉庫技術和聯機分析處理OLAP技術正是為此提供解決方案而產生的,它能實現對海量數據的存儲管理,并給用戶提供了交互的、多維的、多角度的數據結果展示方式,應分析人員要求快速、靈活地進行大數據量的復雜查詢處理。數據倉庫中OLAP應用需要對大量數據進行聚集計算,對系統的查詢性能有較高要求。數據倉庫和OLAP分析都是基于多維模型的,而多維模型將數據看作數據立方cube的形式。為了有效地提高數據倉庫和OLAP分析的查詢性能,在數據倉庫中預計算并儲存數據立方是非常必要的。預先計算并實例化數據立方,就可以縮短查詢的響應時間。數據立方對所有可能的分組屬性組合進行預先聚集計算,并將聚集結果實例化存儲,是聯機分析處理的核心。但針對不斷龐大的數據總量和越來越快的信息增長速度,數據立方的尺寸會急劇增長,數據立方的存儲空間大小成為數據立方的一個很重要的問題。為了減小數據立方的存儲尺寸,很多數據立方的壓縮方法被研究。
Dwarf數據立方對于計算、存儲、查詢來說是一種高度的壓縮結構。通過研究發現,在數據立方中存在大量的前綴冗余和后綴冗余。一般來說,數據方體中數據密集的地方前綴冗余比較多,數據稀疏的地方后綴冗余比較多。Dwarf數據立方是將具有相同前綴和后綴的數據元素壓縮存儲在一起,消除了這兩種類型的冗余信息,大大縮減了數據立方的存儲空間,將一個完全實例化的數據立方縮減到一個非常密集的數據結構中。通過消除數據的前綴冗余和后綴冗余來實現對cube壓縮的目的,對cube的壓縮比比較高,是一種比較有效的cube壓縮算法。但隨著數據量的快速增加,由于傳統Dwarf立方采取單一數據文件和單機構建的方式,所以傳統Dwarf立方的構造速度變的十分緩慢,數據立方的結構也變得非常復雜,遠遠跟不上大數據時代實際應用的需求。
而諸如MapReduce等分布式計算架構的出現,為數據立方的并行構建帶來了契機。Google公司提出的分布式并行計算框架MapReduce,它簡化了超大集群上的數據處理任務,可以實現應用程序和底層分布式處理機制的隔離。用戶只需考慮如何實現Map和Reduce過程以滿足業務需求,數據切割、任務調度、節點通信和系統容錯等功能均由MapReduce自動完成。如果將數據立方的壓縮、構建、查詢等與MapReduce架構相結合,一定可以達到良好的效果。
綜上所述,數據立方技術是數據倉庫、OLAP分析、大數據處理等技術中的重要研究內容,不僅具有重要的理論研究意義,而且具有廣泛的實際應用價值。而隨著大數據時代各個領域內數據量的快速增加,數據立方的尺寸會急劇增長,數據立方的壓縮技術成為一個核心的研究問題。
發明內容
為了解決上述的技術問題,本發明提供了一種基于MapReduce的并行數據立方構建方法。
為了解決上述技術問題,本發明采取以下技術方案:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東省智能機器人研究院,未經廣東省智能機器人研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910879241.0/2.html,轉載請聲明來源鉆瓜專利網。





