[發明專利]一種在鍵值庫中進行分布式數據分析的方法有效

申請號：	201210190397.6	申請日：	2012-06-08
公開（公告）號：	CN102750353A	公開（公告）日：	2012-10-24
發明（設計）人：	王建民;丁貴廣;朱妤晴;衣國壘;楊義繁	申請（專利權）人：	清華大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京清亦華知識產權代理事務所(普通合伙) 11201	代理人：	羅文群
地址：	100084***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種鍵值進行分布式數據分析方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明一種在鍵值庫中進行分布式數據分析的方法，屬于數據處理技術領域。

背景技術

映射聚集技術是谷歌公司提出的一種并行計算框架和編程模型，與以往的并行計算方式不同，映射聚集是基于廉價的硬件環境設計，并且具有高吞吐量的計算系統，其開源的的映射聚集實現(即Hadoop)已經成為目前大數據處理的事實標準，目前IBM，微軟，甲骨文等大型公司的大數據方案都基于它實現。映射聚集的出現為很多企業提供了一種廉價的大數據處理方式，降低了企業在海量數據下進行數據處理的成本，使得企業對海量數據進行分析處理成為可能，也為海量數據挖掘提供了便捷的形式。

映射聚集的基本計算過程如圖1所示。映射聚集的基本思想是計算伴隨數據移動，將計算過程簡單的劃分為映射和聚集兩個過程，映射函數在數據所處的節點上完成初始計算，然后聚集函數將映射函數的計算結果通過網絡拷貝到聚集任務的執行節點上進行最終結果的聚合，由于聚集函數的輸入一般都比較少，所以系統造成的網絡負擔相對較少，在輸入數據非常大的情況下有很大的吞吐量。

在目前看映射聚集技術是一種高效的數據處理技術，非關系型數據庫（即NoSQL）技術是一種非常高效、廉價的存儲技術，但是兩者卻不能很好的融合。開源的映射聚集必須運行在分布式文件系統（其中Hadoop的分布式文件系統稱作HDFS）上，在采用映射聚集框架和非關系型數據庫之后，企業的大數據處理平臺的結構如圖2所示。

通過圖2可以看出為了支持映射聚集的運行，企業必須部署一個運行映射聚集框架的集群和一個分布式文件系統，這樣浪費了計算和存儲資源，也給企業帶來了一定的維護成本，所以在非關系型數據庫技術之上，提供對映射聚集的原生支持就顯得非常必要了。

另外一種常見的做法就是將非關系型數據庫中的數據批量的導入文件系統中，利用分布式文件系統作為數據的輸入，進行批量的數據分析，這種方案的缺陷是引入了一個導入的過程，此外需要搭建新的處理框架，給企業帶來了不必要的負擔。

發明內容

本發明的目的是提出一種在鍵值庫中進行分布式數據分析的方法,消除目前開源的映射聚集框架對分布式文件系統的依賴，讓映射聚集框架能夠直接運行在非關系型數據庫上或者鍵值庫存儲上，為鍵值庫存儲中的數據分析提供一種原生的工具。

本發明提出的在鍵值庫中進行分布式數據分析的方法，包括以下步驟：

（1）將鍵值庫中與一個哈希范圍相對應的數據作為一個數據塊，每個數據塊有多個相同的副本，多個副本分別存儲在不同的計算機上；

（2）從上述多個副本中隨機選取一個副本，對該副本進行映射處理，得到多個中間數據塊，將該中間數據塊存儲在進行映射處理的當前計算機上；

（3）從當前計算機上讀取多個中間數據塊，對讀取的多個中間數據塊根據用戶定義的排序方法進行排序，得到一個有序數據塊，對該有序數據塊進行聚集處理，得到一個輸出文件，該輸出文件存儲在非關系型數據庫上的文件系統中；

（4）啟動分布式數據分析過程時，將用戶的分布式數據分析程序打包成一個代碼包，將該代碼包存儲在上述非關系型數據庫上的文件系統中，并將描述步驟（1）的數據塊的信息存儲在該文件系統中，數據塊描述信息包括哈希范圍的起點和終點以及每個副本所在的計算機位置；

（5）中心計算機的任務分配組件根據每個數據塊的描述信息，獲得數據塊的副本所在的計算機位置，并向該計算機分配任務，重復步驟（1）～（3）。

本發明提出在鍵值庫中進行分布式數據分析的方法，其優點是消除了映射聚集框架對分布式文件系統的依賴，映射聚集框架運行需要的數據塊的描述信息，可執行代碼包都被存儲在非關系型數據庫上的文件系統中，這樣企業在進行數據分析時只需要映射聚集框架和非關系型數據庫兩個組件，不再需要部署分布式文件系統，降低了資源消耗和維護成本。

附圖說明

圖1是映射聚集的基本計算流程框圖。

圖2是已有的分布式數據分析的結構示意圖。

圖3是本發明方法的在鍵值庫中進行分布式數據分析的結構示意圖。

具體實施方式

本發明提出的在鍵值庫中進行分布式數據分析的方法，使用時的系統結構示意圖如圖3所示，包括以下步驟：

（1）將鍵值庫中與一個哈希范圍相對應的數據作為一個數據塊，每個數據塊有多個相同的副本，多個副本分別存儲在不同的計算機上；

（2）從上述多個副本中隨機選取一個副本，對該副本進行映射處理，得到多個中間數據塊，將該中間數據塊存儲在進行映射處理的當前計算機上；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于清華大學，未經清華大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201210190397.6/2.html，轉載請聲明來源鉆瓜專利網。