[發明專利]一種基于MapReduce的數據處理方法和裝置有效
| 申請號: | 201410140407.4 | 申請日: | 2014-04-09 |
| 公開(公告)號: | CN104978345B | 公開(公告)日: | 2018-08-17 |
| 發明(設計)人: | 鄧超;熊龍;徐萌;錢嶺;孫少陵 | 申請(專利權)人: | 中國移動通信集團公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mapreduce 數據處理 方法 裝置 | ||
本發明公開了一種基于MapReduce的數據處理方法和裝置,用以解決現有技術中的MapReduce流程在處理數據時會頻繁進行磁盤讀寫操作從而造成額外開銷,嚴重影響系統性能的問題。該方法包括:確定針對欲處理數據所要執行的第一MapReduce流程;所述第一MapReduce流程中包含多個MapReduce作業;將所述第一MapReduce流程中滿足預先設置的合并規則的MapReduce作業進行合并,得到第二MapReduce流程;其中,所述合并規則滿足:合并前的MapReduce作業的執行結果與合并后的MapReduce作業的執行結果相同;對所述預處理數據執行所述第二MapReduce流程。
技術領域
本發明涉及云計算技術領域,尤其涉及一種基于MapReduce的數據處理方法和裝置。
背景技術
Hadoop是一個能夠對大量數據進行處理的分布式系統基礎框架,具有可靠、高效和可伸縮的特點。它主要由Hadoop分布式文件系統(Hadoop Distributed File System,HDFS)和MapReduce組成。其中,MapReduce是一種分布式計算框架,主要用于大規模數據集的并行運算,其主要分為Map階段(Map操作過程)和Reduce階段(Reduce操作過程),這兩個階段的處理邏輯分別對應 Map函數和Reduce函數。其并行計算的大致思想為:將文件分成眾多小文件在各個節點上運行(即Map操作過程),運行結果先暫時保存在本地;然后經過一次混洗和排序,把相關的Map輸出讀取出來并傳送到同一個Reduce操作過程;Reduce處理完的結果再保存在分布式集群上。
MapReduce這種計算框架在Map和Reduce階段均有對本地磁盤內數據的讀寫操作,而頻繁的磁盤讀寫操作會造成額外開銷,從而嚴重影響系統性能。
發明內容
本發明實施例提供一種基于MapReduce的數據處理方法和裝置,用以解決現有技術中的MapReduce流程在處理數據時會頻繁進行磁盤讀寫操作從而造成額外開銷,嚴重影響系統性能的問題。
本發明實施例采用以下技術方案:
本發明實施例提供了一種基于MapReduce的數據處理方法,包括:
確定針對欲處理數據所要執行的第一MapReduce流程;所述第一 MapReduce流程中包含多個MapReduce作業;
將所述第一MapReduce流程中滿足預先設置的合并規則的MapReduce作業進行合并,得到第二MapReduce流程;其中,所述合并規則滿足:合并前的MapReduce作業的執行結果與合并后的MapReduce作業的執行結果相同;
對所述預處理數據執行所述第二MapReduce流程。
其中,所述合并規則,具體包括:
僅包含Map操作的MapReduce作業和與其相鄰的下一個MapReduce作業合并;
包含Map操作和Reduce操作的MapReduce作業和與其相鄰的下一個且最多一個僅包含Map操作的MapReduce作業合并。
其中,將所述第一MapReduce流程中滿足預先設置的合并規則的 MapReduce作業進行合并,具體包括:
確定所述多個MapReduce作業中的每個MapReduce作業包含的操作;
根據所述合并規則以及確定出的每個MapReduce作業包含的操作,從所述多個MapReduce作業中的第一個執行的MapReduce作業開始循環執行下述合并操作,直至當前MapReduce作業不存在與其相鄰的下一個MapReduce作業;
所述合并操作包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團公司,未經中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410140407.4/2.html,轉載請聲明來源鉆瓜專利網。





