[發(fā)明專利]基于MapReduce模型的數(shù)據(jù)處理方法和設(shè)備有效

申請?zhí)枺?/td>	201710072197.3	申請日：	2017-02-09
公開（公告）號：	CN108415912B	公開（公告）日：	2021-11-09
發(fā)明（設(shè)計）人：	路璐	申請（專利權(quán)）人：	阿里巴巴集團控股有限公司
主分類號：	G06F16/2453	分類號：	G06F16/2453;G06F16/2455;G06F16/27;G06F16/28;G06F16/182
代理公司：	北京國昊天誠知識產(chǎn)權(quán)代理有限公司 11315	代理人：	黃熊
地址：	英屬開曼群島大開***	國省代碼：	暫無信息
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于 mapreduce 模型數(shù)據(jù)處理方法設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

公開了一種基于MapReduce模型的數(shù)據(jù)處理方法和設(shè)備。所述方法在利用MapReduce模型實現(xiàn)SQL指令的處理中，確定所述SQL指令是否已在Map端進行局部規(guī)約，其中，局部規(guī)約利用數(shù)據(jù)的重復(fù)性減少Map端與Reduce端之間的數(shù)據(jù)量；若確定進行局部規(guī)約，則對經(jīng)對經(jīng)局部規(guī)約處理后的數(shù)據(jù)利用第一排序算法進行排序；若確定不進行局部規(guī)約，則對經(jīng)Mapper輸出的數(shù)據(jù)利用第二排序算法進行排序。所述方法能夠根據(jù)實際指令匹配合適的數(shù)據(jù)排序算法，提高了數(shù)據(jù)排序的效率并且避免了單一排序算法所導(dǎo)致的缺點。

技術(shù)領(lǐng)域

本申請涉及分布式文件系統(tǒng)，特別涉及一種基于MapReduce模型的數(shù)據(jù)處理方法和設(shè)備。

背景技術(shù)

分布式文件系統(tǒng)(Distributed File System)是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上，而是通過計算機網(wǎng)絡(luò)與節(jié)點相連。分布式文件系統(tǒng)的設(shè)計基于客戶機/服務(wù)器模式。

在大規(guī)模的分布式文件系統(tǒng)中，為了利用分布式計算方式對數(shù)據(jù)進行處理，通常會現(xiàn)將SQL(Structured Query Language，結(jié)構(gòu)化查詢語言)指令轉(zhuǎn)換為類MapReduce形式處理。MapReduce是Google公司提出的一種用于大規(guī)模并行編程的編程模型，MapReduce模型可以實現(xiàn)大規(guī)模數(shù)據(jù)集(大于1TB)的并行計算，并通過把對數(shù)據(jù)集的大規(guī)模操作分發(fā)給多個節(jié)點進行并行運算，因此被分布式文件系統(tǒng)廣泛使用。

在利用MapReduce模型實現(xiàn)SQL指令的處理中，首先在Map(映射)端對每個節(jié)點進行局部排序，然后在Reduce(規(guī)約)端根據(jù)每個節(jié)點的局部排序結(jié)果進行全排序。因此，排序效果會直接影響分布式系統(tǒng)的執(zhí)行效率，而如何提高MapReduce模型中的排序效率是本領(lǐng)域技術(shù)人員急需解決的問題。

發(fā)明內(nèi)容

本發(fā)明的主要目的在于提供一種，旨在解決在Mapreduce模型中的排序效率問題。

本申請實施例提供一種基于MapReduce模型的數(shù)據(jù)處理方法，所述方法包括：在利用MapReduce模型實現(xiàn)SQL指令的處理中，確定所述SQL指令是否已在Map端進行局部規(guī)約，其中，局部規(guī)約利用數(shù)據(jù)的重復(fù)性減少Map端與Reduce端之間的數(shù)據(jù)量；若確定進行局部規(guī)約，則利用第一排序算法對經(jīng)對經(jīng)局部規(guī)約處理后的數(shù)據(jù)進行排序；若確定不進行局部規(guī)約，則利用第二排序算法對經(jīng)Mapper輸出的數(shù)據(jù)進行排序。

本申請另一實施例提供一種基于MapReduce模型的數(shù)據(jù)處理設(shè)備，所述設(shè)備包括：確定模塊，在利用MapReduce模型實現(xiàn)SQL指令的處理中，確定所述SQL指令是否已在Map端進行局部規(guī)約，其中，局部規(guī)約利用數(shù)據(jù)的重復(fù)性減少Map端與Reduce端之間的數(shù)據(jù)量；第一排序模塊，若確定進行局部規(guī)約，則利用第一排序算法對經(jīng)對經(jīng)局部規(guī)約處理后的數(shù)據(jù)進行排序；第二排序模塊，若確定不進行局部規(guī)約，則利用第二排序算法對經(jīng)Mapper輸出的數(shù)據(jù)進行排序。

本申請實施例采用的上述至少一個技術(shù)方案可利用條件判斷來自動切換不同的排序算法，更具體地，可通過確定所述SQL指令是否在Map端進行局部規(guī)約來確定Map端的排序算法，從而能夠根據(jù)實際指令匹配合適的數(shù)據(jù)排序算法，提高了數(shù)據(jù)排序的效率并且避免了單一排序算法所導(dǎo)致的缺點。

附圖說明

此處所說明的附圖用來提供對本申請的進一步理解，構(gòu)成本申請的一部分，本申請的示意性實施例及其說明用于解釋本申請，并不構(gòu)成對本申請的不當(dāng)限定。在附圖中：

圖1示出現(xiàn)有的基于MapReduce模型的分布式數(shù)據(jù)處理系統(tǒng)的示意圖；

圖2A示出MapReduce模型中進行排序操作的示意圖；

圖2B示出MapReduce模型中進行排序操作的另一示意圖；

圖3示出根據(jù)本發(fā)明的示例性實施例的基于MapReduce模型的數(shù)據(jù)處理方法的流程圖；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團控股有限公司，未經(jīng)阿里巴巴集團控股有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710072197.3/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：基于企業(yè)云盤的數(shù)據(jù)文檔按需同步方法
下一篇：基于不確定鄰居的人群定向方法

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

滑坡模型實驗?zāi)Ｐ图?/a>

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】