[發(fā)明專利]一種OLAP海量多維數(shù)據(jù)維存儲方法無效
| 申請?zhí)枺?/td> | 201210438298.5 | 申請日: | 2012-11-06 |
| 公開(公告)號: | CN102982103A | 公開(公告)日: | 2013-03-20 |
| 發(fā)明(設(shè)計)人: | 宋愛波;何戰(zhàn)國;羅軍舟 | 申請(專利權(quán))人: | 東南大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京蘇高專利商標事務(wù)所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 211189 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 olap 海量 多維 數(shù)據(jù) 存儲 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種OLAP海量多維數(shù)據(jù)維存儲方法,適用OLAP系統(tǒng)中多維海量數(shù)據(jù)的快速分析情況,尤其是能區(qū)別OLAP分析中維的層次特性。
背景技術(shù)
首先對本發(fā)明中用到的縮寫及名詞進行說明:
OLAP:Online?Analytical?Processing,聯(lián)機分析處理;
ROLAP:Relational?OLAP,關(guān)系OLAP;
MOLAP:Multidimensional?OLAP,多維OLAP;
Hadoop:一個分布式系統(tǒng)基礎(chǔ)架構(gòu);
Hive:基于Hadoop的一個數(shù)據(jù)倉庫工具;
Pig:一種數(shù)據(jù)流語言和運行環(huán)境,用以檢索非常大的數(shù)據(jù)集;
HDFS:Hadoop?Distributed?File?System,Hadoop分布式文件系統(tǒng);
HDFile:HDFS?Dimension?File,分布式維存儲文件;
MapReduce:一種并行編程框架;
隨著大規(guī)模的數(shù)據(jù)庫尤其是數(shù)據(jù)倉庫系統(tǒng)的日益增多,無論是政府部門還是企業(yè)都積累了海量的業(yè)務(wù)處理和市場變化數(shù)據(jù)。特別是隨著Internet技術(shù)的高速發(fā)展,各行業(yè)的信息量呈指數(shù)級的爆炸性增長趨勢,一些應(yīng)用中數(shù)據(jù)量已經(jīng)從幾十個TB發(fā)展到PB級,如商業(yè)智能、環(huán)境氣象、數(shù)字城市、生物信息等應(yīng)用。如何對這些海量數(shù)據(jù)進行有效地分析和挖掘,從中發(fā)現(xiàn)有用的信息和潛在的規(guī)律?為此,聯(lián)機分析處理(OLAP)成為了當前數(shù)據(jù)庫應(yīng)用的研究熱點。
OLAP是一種軟件技術(shù),它使分析人員、管理人員或執(zhí)行人員能從多種角度對信息進行快速、一致、交互地存取,從而更深入地了解數(shù)據(jù)。OLAP的目標是滿足決策支持或多維環(huán)境中特定的查詢和報表需求,其技術(shù)核心是“維”這一概念,因此OLAP也可說是多維數(shù)據(jù)分析工具的集合。
在傳統(tǒng)OLAP中,應(yīng)用比較廣泛的有基于關(guān)系型存儲的ROLAP和基于多維數(shù)組存儲的MOLAP。然而,面向行存儲的ROLAP往往需要掃描整行數(shù)據(jù),進而影響整體查詢效率;MOLAP以多維數(shù)組存儲預聚集的數(shù)據(jù),可以快速響應(yīng)OLAP聚集計算,但是其更新代價高且預處理數(shù)據(jù)所占用的空間隨著維數(shù)的增加呈指數(shù)型增長。以往的OLAP存儲技術(shù)已經(jīng)無法適應(yīng)日益增長的OLAP海量多維數(shù)據(jù)查詢分析,有學者提出基于Hadoop的海量數(shù)據(jù)倉庫系統(tǒng)Hive和Pig應(yīng)對OLAP海量數(shù)據(jù)分析。Pig可以并行處理數(shù)據(jù)的同時依然是面向行存儲,面臨掃描全行的行暴力掃描問題;Hive雖然可以避免全行檢索,但它缺乏有效的索引機制。
發(fā)明內(nèi)容
發(fā)明目的:為了克服傳統(tǒng)數(shù)據(jù)庫中的OLAP數(shù)據(jù)存儲的不足,Pig中行暴力掃描問題以及Hive中缺乏有效索引問題,并結(jié)合維的層次特性,本發(fā)明提出一種OLAP海量多維數(shù)據(jù)維存儲方法,顯著縮短了OLAP海量多維數(shù)據(jù)分析時間。
技術(shù)方案:一種OLAP海量多維數(shù)據(jù)維存儲方法,首先提取源數(shù)據(jù)中每一維的信息,按維分割OLAP海量多維數(shù)據(jù),然后利用維層次特性進行編碼,保持維數(shù)據(jù)的語義信息,得到維層次編碼,維層次編碼是具有前綴特性的二進制編碼,實現(xiàn)數(shù)據(jù)的高效壓縮、快速運算和定位;同時設(shè)計基于HDFS的HDFile維存儲文件結(jié)構(gòu),有利于加快OLAP聚集計算,有效避免OLAP查詢分析中的行暴力掃描。接著有效利用具有語義特征的維層次編碼,構(gòu)建B+樹索引,實現(xiàn)OLAP海量多維數(shù)據(jù)按維值的快速查找、定位及傳輸,節(jié)省了I/O開銷。最后根據(jù)HDFile維存儲結(jié)構(gòu),設(shè)計基于MapReduce框架設(shè)計高效并行查詢算法,進一步提高了OLAP查詢效率。
有益效果:本發(fā)明的方法與現(xiàn)有技術(shù)相比,其顯著優(yōu)點是:為OLAP海量多維數(shù)據(jù)維存儲方法科學實驗統(tǒng)計、環(huán)境氣象、生物信息計算等海量數(shù)據(jù)分析的應(yīng)用提供一套高效、易用、可擴展的存儲方法。
附圖說明
圖1為本發(fā)明實施例中表1中地區(qū)維的維層次樹;
圖2為本發(fā)明實施例中的HDFile結(jié)構(gòu);
圖3是本發(fā)明實施例的基于維層次編碼的B+樹索引。
具體實施方式
下面結(jié)合具體實施例,進一步闡明本發(fā)明,應(yīng)理解這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學,未經(jīng)東南大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210438298.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 靈活的立方體數(shù)據(jù)入庫
- 面向并發(fā)OLAP的數(shù)據(jù)庫查詢處理方法
- 數(shù)據(jù)處理及查詢方法、裝置
- 一種內(nèi)存云計算平臺上的數(shù)據(jù)倉庫安全OLAP方法
- OLAP服務(wù)方法、裝置及系統(tǒng)
- 一種用于電子商務(wù)系統(tǒng)的OLAP系統(tǒng)
- 一種基于可擴展節(jié)點集群的大數(shù)據(jù)分析處理系統(tǒng)
- 一種基于查詢推理的OLAP元數(shù)據(jù)沖突的自動修復方法
- 一種基于可擴展節(jié)點集群的大數(shù)據(jù)分析處理系統(tǒng)
- OLAP自動創(chuàng)建并寫入MQ數(shù)據(jù)的方法及系統(tǒng)
- 一種數(shù)據(jù)庫海量數(shù)據(jù)比對的方法
- 基于云計算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實現(xiàn)海量數(shù)據(jù)準實時全量統(tǒng)計的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





