[發(fā)明專利]基于列存儲的智能雙引擎分析系統(tǒng)及方法在審
| 申請?zhí)枺?/td> | 201410335740.0 | 申請日: | 2014-07-15 |
| 公開(公告)號: | CN104133858A | 公開(公告)日: | 2014-11-05 |
| 發(fā)明(設計)人: | 郝俊瑞;向智宇;許德瑋;高漢松;郭嘉 | 申請(專利權(quán))人: | 武漢郵電科學研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/08 |
| 代理公司: | 北京捷誠信通專利事務所(普通合伙) 11221 | 代理人: | 魏殿紳;龐炳良 |
| 地址: | 430074 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 存儲 智能 引擎 分析 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及智慧城市和大數(shù)據(jù)處理領(lǐng)域,具體是涉及一種基于列存儲的智能雙引擎分析系統(tǒng)及方法。
背景技術(shù)
隨著移動互聯(lián)網(wǎng)、智能終端、物聯(lián)網(wǎng)、云計算以及智慧城市的普及,人們逐漸的進入了“大數(shù)據(jù)”時代。大數(shù)據(jù)是規(guī)模非常巨大和復雜的數(shù)據(jù)集,數(shù)據(jù)量達到PB、EB或ZB的級別后,傳統(tǒng)數(shù)據(jù)庫的管理工具處理起來面臨很多問題,例如獲取、存儲、檢索和分析等。在傳統(tǒng)的關(guān)系數(shù)據(jù)庫中,一般采用索引和全表掃描的方式來處理查詢、分析,索引具有快速定位,對于簡單查詢高效快速的特點,但是對于一些復雜的統(tǒng)計分析,或者數(shù)據(jù)挖掘類的應用則一般采取全表掃描的方式。大數(shù)據(jù)引發(fā)了一些問題,如對數(shù)據(jù)庫高并發(fā)讀寫要求、對海量數(shù)據(jù)的高效率存儲和訪問需求、對數(shù)據(jù)庫高可擴展性和高可用性的需求,在大數(shù)據(jù)的環(huán)境下,數(shù)據(jù)量是以前傳統(tǒng)關(guān)系數(shù)據(jù)庫的成千上百倍,傳統(tǒng)的關(guān)系數(shù)據(jù)庫的一些技術(shù)顯得力不從心。
Hadoop是由Apache?Software?Foundation(阿帕奇軟件基金會)維護的一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,Hadoop帶來了廉價的處理大數(shù)據(jù)的能力。Hadoop是一個龐大的生態(tài)系統(tǒng),為處理大數(shù)據(jù)提供了各種工具和平臺。
HDFS(Hadoop?Distributed?File?System,Hadoop分布式文件系統(tǒng))被設計成適合運行在通用服務器上的分布式文件系統(tǒng)。HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應用。HDFS是hadoop生態(tài)系統(tǒng)的基礎。HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可在廉價的服務器上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。HBase可提供類似結(jié)構(gòu)化的存儲,在基于主鍵和范圍的查詢下,性能優(yōu)越。
Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的SQL(Structured?Query?Language,結(jié)構(gòu)化查詢語言)查詢功能,它可以將SQL語句轉(zhuǎn)換為MapReduce(映射化簡)并行任務進行運行。其優(yōu)點是學習成本低,并可以通過類SQL語句快速實現(xiàn)簡單的MapReduce并行統(tǒng)計,不必開發(fā)專門的MapReduce并行應用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。
當前,針對大數(shù)據(jù)的應用,Hadoop現(xiàn)在成為大數(shù)據(jù)處理的標準工具,而在Hadoop中,都采用Mapreduce來進行數(shù)據(jù)的批量分析,它將SQL的分解為并行任務在HDFS上進行執(zhí)行。當數(shù)據(jù)量大時,對于一些大規(guī)模的統(tǒng)計分析任務,MapReduce比傳統(tǒng)的關(guān)系數(shù)據(jù)庫有更好的擴展性和分析性能。
但是,MapReduce不能區(qū)分業(yè)務場景,無論是多么簡單的查詢,MapReduce都會將其轉(zhuǎn)化為掃描全表的并行處理任務,因此在某些定位查找、檢索等場景下,MapReduce就顯得過于笨重,耗時而且耗費資源。由于文件沒有進行結(jié)構(gòu)化的組織,而MapReduce本身非常耗時,因此,在Hadoop環(huán)境下,傳統(tǒng)的Hive在性能上仍無法滿足用戶對大規(guī)模數(shù)據(jù)的查詢和統(tǒng)計分析需求。
發(fā)明內(nèi)容
本發(fā)明的目的是為了克服上述背景技術(shù)的不足,提供一種基于列存儲的智能雙引擎分析系統(tǒng)及方法,既能滿足實時性的簡單查詢,又能有效提高分析大規(guī)模數(shù)據(jù)的性能,滿足用戶對大規(guī)模數(shù)據(jù)的統(tǒng)計分析要求。
本發(fā)明提供一種基于列存儲的智能雙引擎分析系統(tǒng),包括HBase存儲單元、客戶端、智能結(jié)構(gòu)化查詢語言SQL路由單元,該系統(tǒng)在用戶側(cè)實現(xiàn)智能SQL路由單元;該系統(tǒng)采用HBase存儲單元作為底層數(shù)據(jù)的存儲單元,并在HBase存儲單元上建立實時查詢引擎和批量分析引擎,該系統(tǒng)針對的數(shù)據(jù)是結(jié)構(gòu)化的關(guān)系型數(shù)據(jù);
所述HBase存儲單元用于:實現(xiàn)對數(shù)據(jù)的底層存儲,在存儲數(shù)據(jù)時,將數(shù)據(jù)的主鍵自動映射到HBase的主鍵上,如果用戶的數(shù)據(jù)還有其他列帶有索引,那么通過單獨的HBase表來生成二級索引表,二級索引表的主鍵對應用戶表的索引列;
所述客戶端用于:接收用戶輸入的SQL語句,然后將用戶輸入的SQL語句發(fā)送給智能SQL路由單元;
所述智能SQL路由單元用于:對用戶輸入的SQL語句進行解析,并進行分析和判斷,根據(jù)分析的結(jié)果將SQL路由到實時查詢引擎或者批量分析引擎,進行分析和查詢;
所述實時查詢引擎用于:將使用索引的簡單查詢轉(zhuǎn)化為HBase的主鍵查詢操作或范圍查詢操作,通過HBase的主鍵和索引對數(shù)據(jù)進行檢索、查詢和分析;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢郵電科學研究院,未經(jīng)武漢郵電科學研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410335740.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





