[發明專利]一種針對混合型大數據處理系統的數據交互分析方法在審

申請號：	201410710850.0	申請日：	2014-12-01
公開（公告）號：	CN104391957A	公開（公告）日：	2015-03-04
發明（設計）人：	亓開元;盧軍佐;楊勇;辛國茂	申請（專利權）人：	浪潮電子信息產業股份有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	濟南信達專利事務所有限公司 37100	代理人：	姜明
地址：	250101 山東***	國省代碼：	山東;37
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種針對混合數據處理系統數據交互分析方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及一種大數據分析技術領域，具體地說是一種針對混合型大數據處理系統的數據交互分析方法。

背景技術

為了應對行業日益復雜的業務需求，當前出現一種融合了批處理、內存計算、流處理、NoSQL數據庫等多種處理模式的混合型大數據處理系統。在混合型大數據處理系統支持的處理模式中，由于MapReduce、Spark、HBase等都引入了新的編程模型，學習成本較大，因此，基于各類大數據處理系統構建的交互分析應用最為廣泛。交互分析的模式和效果與傳統數據庫應用非常相似的，數據以表的形式存儲，應用層采用標準的SQL語句發起各種數據請求，支持對數據掃描、統計、聚合、多表關聯等操作的高并發、低延遲的處理。當前出現的基于MapReduce的Hive、基于Spark的Shark都屬于這一類交互分析引擎。

MapReduce是Google提出的一個軟件架構，用于大規模數據集（大于1TB）的并行運算。主要思想為Map（映射）和Reduce（化簡）。MapReduce通過把對數據集的大規模操作分發給網絡上的每個節點實現可靠性；每個節點會周期性的把完成的工作和狀態的更新報告回來。如果一個節點保持沉默超過一個預設的時間間隔，主節點（類同Google?File?System中的主服務器）記錄下這個節點狀態為死亡，并把分配給這個節點的數據發到別的節點。每個操作使用命名文件的原子操作以確保不會發生并行線程間的沖突；當文件被改名的時候，系統可能會把他們復制到任務名以外的另一個名字上去。

Hive是基于Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，并提供完整的sql查詢功能，可以將sql語句轉換為MapReduce任務進行運行。

Spark有分配任務的主節點（Driver）和執行計算的工作節點（Worker）Spark的核心概念是RDD?(resilientdistributed?dataset)，指的是一個只讀的，可分區的分布式數據集，這個數據集的全部或部分可以緩存在內存中，在多次計算間重用。

Shark基本上就是在Spark的框架基礎上提供和Hive一樣的H?iveQL命令接口，為了最大程度的保持和Hive的兼容性，Shark使用了Hive的API來實現query?Parsing和?Logic?Plan?generation，最后的PhysicalPlan?execution階段用Spark代替Hadoop?MapReduce。通過配置Shark參數，Shark可以自動在內存中緩存特定的RDD，實現數據重用，進而加快特定數據集的檢索。同時，Shark通過UDF用戶自定義函數實現特定的數據分析學習算法，使得SQL數據查詢和運算分析能結合在一起，最大化RDD的重復使用。

HBase是一個分布式的、面向列的開源數據庫，該技術來源于Chang?et?al所撰寫的Google論文“Bigtable：一個結構化數據的分布式存儲系統”。就像Bigtable利用了Google文件系統（File?System）所提供的分布式數據存儲一樣，HBase在Hadoop之上提供了類似于Bigtable的能力。HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關系數據庫，它是一個適合于非結構化數據存儲的數據庫。另一個不同的是HBase基于列的而不是基于行的模式。?

然而，現有混合型大數據處理系統中的交互分析引擎，還僅是針對單一的大數據系統，無法實現跨系統的數據處理。例如，當前Hive與HBase中的數據無法直接建立關聯，通常的做法是將進行一次數據遷移，在Hive或HBase單一系統中進行，在大量數據情況下造成的數據冗余以及傳輸延遲都是不可容忍的。為了實現混合型大數據架構中各類處理系統的真正融合，需要研究跨異構系統間的數據交互分析方法，其中比較重要的一種就是關聯join分析。join又稱連接查詢，是關系數據庫中最主要的查詢，主要包括內連接、外連接和交叉連接等；通過連接運算符可以實現多個表查詢。

在基于MapReduce的Hive中，join大多采用Hash?join（哈希連接）方式，Hash?join方式需要將某個表廣播到所有處理節點進行全部緩存，因此僅適用于大表和小表的關聯情況，否則會因為傳輸的數據量太大影響性能，甚至造成處理節點內存溢出。

發明內容

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于浪潮電子信息產業股份有限公司，未經浪潮電子信息產業股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410710850.0/2.html，轉載請聲明來源鉆瓜專利網。