[發(fā)明專利]基于MapReduce模型的數(shù)據(jù)處理方法和設(shè)備有效
| 申請?zhí)枺?/td> | 201710072197.3 | 申請日: | 2017-02-09 |
| 公開(公告)號: | CN108415912B | 公開(公告)日: | 2021-11-09 |
| 發(fā)明(設(shè)計)人: | 路璐 | 申請(專利權(quán))人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/2453 | 分類號: | G06F16/2453;G06F16/2455;G06F16/27;G06F16/28;G06F16/182 |
| 代理公司: | 北京國昊天誠知識產(chǎn)權(quán)代理有限公司 11315 | 代理人: | 黃熊 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 mapreduce 模型 數(shù)據(jù)處理 方法 設(shè)備 | ||
公開了一種基于MapReduce模型的數(shù)據(jù)處理方法和設(shè)備。所述方法在利用MapReduce模型實現(xiàn)SQL指令的處理中,確定所述SQL指令是否已在Map端進行局部規(guī)約,其中,局部規(guī)約利用數(shù)據(jù)的重復(fù)性減少Map端與Reduce端之間的數(shù)據(jù)量;若確定進行局部規(guī)約,則對經(jīng)對經(jīng)局部規(guī)約處理后的數(shù)據(jù)利用第一排序算法進行排序;若確定不進行局部規(guī)約,則對經(jīng)Mapper輸出的數(shù)據(jù)利用第二排序算法進行排序。所述方法能夠根據(jù)實際指令匹配合適的數(shù)據(jù)排序算法,提高了數(shù)據(jù)排序的效率并且避免了單一排序算法所導(dǎo)致的缺點。
技術(shù)領(lǐng)域
本申請涉及分布式文件系統(tǒng),特別涉及一種基于MapReduce模型的數(shù)據(jù)處理方法和設(shè)備。
背景技術(shù)
分布式文件系統(tǒng)(Distributed File System)是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上,而是通過計算機網(wǎng)絡(luò)與節(jié)點相連。分布式文件系統(tǒng)的設(shè)計基于客戶機/服務(wù)器模式。
在大規(guī)模的分布式文件系統(tǒng)中,為了利用分布式計算方式對數(shù)據(jù)進行處理,通常會現(xiàn)將SQL(Structured Query Language,結(jié)構(gòu)化查詢語言)指令轉(zhuǎn)換為類MapReduce形式處理。MapReduce是Google公司提出的一種用于大規(guī)模并行編程的編程模型,MapReduce模型可以實現(xiàn)大規(guī)模數(shù)據(jù)集(大于1TB)的并行計算,并通過把對數(shù)據(jù)集的大規(guī)模操作分發(fā)給多個節(jié)點進行并行運算,因此被分布式文件系統(tǒng)廣泛使用。
在利用MapReduce模型實現(xiàn)SQL指令的處理中,首先在Map(映射)端對每個節(jié)點進行局部排序,然后在Reduce(規(guī)約)端根據(jù)每個節(jié)點的局部排序結(jié)果進行全排序。因此,排序效果會直接影響分布式系統(tǒng)的執(zhí)行效率,而如何提高MapReduce模型中的排序效率是本領(lǐng)域技術(shù)人員急需解決的問題。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種,旨在解決在Mapreduce模型中的排序效率問題。
本申請實施例提供一種基于MapReduce模型的數(shù)據(jù)處理方法,所述方法包括:在利用MapReduce模型實現(xiàn)SQL指令的處理中,確定所述SQL指令是否已在Map端進行局部規(guī)約,其中,局部規(guī)約利用數(shù)據(jù)的重復(fù)性減少Map端與Reduce端之間的數(shù)據(jù)量;若確定進行局部規(guī)約,則利用第一排序算法對經(jīng)對經(jīng)局部規(guī)約處理后的數(shù)據(jù)進行排序;若確定不進行局部規(guī)約,則利用第二排序算法對經(jīng)Mapper輸出的數(shù)據(jù)進行排序。
本申請另一實施例提供一種基于MapReduce模型的數(shù)據(jù)處理設(shè)備,所述設(shè)備包括:確定模塊,在利用MapReduce模型實現(xiàn)SQL指令的處理中,確定所述SQL指令是否已在Map端進行局部規(guī)約,其中,局部規(guī)約利用數(shù)據(jù)的重復(fù)性減少Map端與Reduce端之間的數(shù)據(jù)量;第一排序模塊,若確定進行局部規(guī)約,則利用第一排序算法對經(jīng)對經(jīng)局部規(guī)約處理后的數(shù)據(jù)進行排序;第二排序模塊,若確定不進行局部規(guī)約,則利用第二排序算法對經(jīng)Mapper輸出的數(shù)據(jù)進行排序。
本申請實施例采用的上述至少一個技術(shù)方案可利用條件判斷來自動切換不同的排序算法,更具體地,可通過確定所述SQL指令是否在Map端進行局部規(guī)約來確定Map端的排序算法,從而能夠根據(jù)實際指令匹配合適的數(shù)據(jù)排序算法,提高了數(shù)據(jù)排序的效率并且避免了單一排序算法所導(dǎo)致的缺點。
附圖說明
此處所說明的附圖用來提供對本申請的進一步理解,構(gòu)成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:
圖1示出現(xiàn)有的基于MapReduce模型的分布式數(shù)據(jù)處理系統(tǒng)的示意圖;
圖2A示出MapReduce模型中進行排序操作的示意圖;
圖2B示出MapReduce模型中進行排序操作的另一示意圖;
圖3示出根據(jù)本發(fā)明的示例性實施例的基于MapReduce模型的數(shù)據(jù)處理方法的流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710072197.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種處理串行任務(wù)的數(shù)據(jù)處理裝置及方法
- 一種將MapReduce轉(zhuǎn)換為SQL的方法和裝置
- 一種基于MapReduce的數(shù)據(jù)處理方法和裝置
- MapReduce應(yīng)用的相關(guān)參數(shù)的配置方法和裝置
- MapReduce作業(yè)處理系統(tǒng)、服務(wù)器及處理方法
- 一種考慮任務(wù)相關(guān)性的Hive優(yōu)化方法及系統(tǒng)
- 一種運行MapReduce作業(yè)的方法、裝置及系統(tǒng)
- 一種數(shù)據(jù)查詢的優(yōu)化方法和裝置
- 一種Sqoop集成多版本HBase的方法及裝置
- 一種計算HiveSql執(zhí)行進度的方法
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





