[發(fā)明專利]一種基于MapReduce的任務(wù)調(diào)度方法有效
| 申請?zhí)枺?/td> | 201310577071.3 | 申請日: | 2013-11-19 |
| 公開(公告)號: | CN103631657B | 公開(公告)日: | 2017-08-25 |
| 發(fā)明(設(shè)計)人: | 孟祥飛;吳楠;鄧鵬飛;宗棟瑞;鄧強 | 申請(專利權(quán))人: | 浪潮電子信息產(chǎn)業(yè)股份有限公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250014 山東*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 mapreduce 任務(wù) 調(diào)度 算法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及當(dāng)前大數(shù)據(jù)領(lǐng)域中的一個非常重要的編程計算框架MapReduce中的任務(wù)調(diào)度方法,特別是涉及一種基于HDFS的動態(tài)副本管理方法。
技術(shù)背景
MapReduce作為一種處理大規(guī)模數(shù)據(jù)集的技術(shù),最早由 Google 在 2007 年提出來,受到了學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。目前,MapReduce 這種并行編程模型成為了各大 IT 廠商融合在云產(chǎn)品中的關(guān)鍵技術(shù)之一,并不斷有開源產(chǎn)品投放到這個行業(yè)中,例如開源云系統(tǒng)Hadoop、Sector&Sphere 等。近年來,MapReduce 已經(jīng)成為了云計算領(lǐng)域的主流技術(shù),也成為了科研機構(gòu),開源組織以及互聯(lián)網(wǎng)公司的研究熱點,并被列入在 InfoWorld 推出的 2011 年十大新興企業(yè)級技術(shù)之中。相信隨著云計算觀念逐漸普及,MapReduce 會獲得更多的關(guān)注和更快的發(fā)展。MapReduce 的架構(gòu)思想使得通過普通的 PC 集群就可以完成對千兆級別的海量數(shù)據(jù)的處理。在實際的應(yīng)用中,通過 MapReduce 對海量數(shù)據(jù)進(jìn)行分析處理并從數(shù)據(jù)挖掘等方面進(jìn)行研究,可以獲得較高效率,同時還兼顧了成本效益。當(dāng)前,由于 MapReduce 具有開源和高性能突出優(yōu)勢,已被廣泛應(yīng)用到機器學(xué)習(xí),數(shù)據(jù)挖掘、智能識別等領(lǐng)域。基于 MapReduce 的應(yīng)用在互聯(lián)網(wǎng)領(lǐng)域也已經(jīng)越來越廣泛。其中推動MapReduce 商業(yè)化的最主要的貢獻(xiàn)者是 Yahoo!,Yahoo!構(gòu)建了超過 4000+個節(jié)點的 MapReduce集群,提供了約為 1.5PB 的存儲應(yīng)用。而全球擁有 10 億用戶的著名社交網(wǎng)站 Facebook 為了處理其每日以TB 級增長的數(shù)據(jù)量,廣泛使用了超過100個 MapReduce 集群來作為其哥斯拉級別的大數(shù)據(jù)的分析工具,主要用來處理 Web 事物流和數(shù)據(jù)挖掘。此外,EMR 產(chǎn)品是 Amazon架構(gòu)在其 EC2 和 S3 上的分布式計算平臺,以按流量收費的形式向用戶提供計算服務(wù)。目前,市場上還有包括 Facebook Insights、IBM Platform MapReduce 等在內(nèi)的多種 MapReduce 應(yīng)用產(chǎn)品。在國內(nèi),眾多互聯(lián)網(wǎng)企業(yè)如百度、淘寶和騰訊也都是 MapReduce 應(yīng)用的忠實粉絲。作為國內(nèi)最大的搜索引擎百度搭建了超過 10 個集群來處理每日生成的 3PB 數(shù)據(jù)量,主要是應(yīng)用于系統(tǒng)日志分析以及網(wǎng)頁數(shù)據(jù)庫的挖掘工作。在此值得一提的是電商巨頭淘寶,淘寶的MapReduce 集群擁有 2800 多個節(jié)點,其總存儲容量 50PB,日均作業(yè)數(shù)高達(dá) 15 萬,主要用于包括用戶消費行為、搜索習(xí)慣等多方面的檢索分析,也為淘寶在 2012 年雙十一的戰(zhàn)場上交易額可以高達(dá) 191 億元提供了關(guān)鍵技術(shù)支撐,做出了巨大貢獻(xiàn)。在海量數(shù)據(jù)時代,互聯(lián)網(wǎng)企業(yè)將 MapReduce 這種分布式計算模式應(yīng)用到網(wǎng)絡(luò)數(shù)據(jù)庫挖掘,日志分析等方面,可以大大提升資源利用率同時為用戶提供了更好的用戶體驗。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是:本發(fā)明提出一種基于MapReduce的任務(wù)調(diào)度方法,該方法是在分析蟻群方法和現(xiàn)有的MapReduce任務(wù)調(diào)度方法的基礎(chǔ)上演化而來。可以克服現(xiàn)有調(diào)度方法存在的許多問題,有效的解決了本地性計算和小作業(yè)處理問題,同時兼顧了節(jié)點上的數(shù)據(jù)傾斜,從而均衡了節(jié)點上的任務(wù)分配,提高了集群平臺的調(diào)度性能。
在大數(shù)據(jù)處理工程中,任務(wù)調(diào)度主要存在以下問題:
1) 本地性計算問題。本地計算指的是在任務(wù)計算過程中,應(yīng)優(yōu)先選擇距離任務(wù)所需數(shù)據(jù)最近的計算節(jié)點。那么 Hadoop 中具體的實現(xiàn)方法是首先將存儲用戶提交數(shù)據(jù)的節(jié)點作為本地執(zhí)行節(jié)點,如果該節(jié)點正在執(zhí)行其他任務(wù)且沒有空閑資源,則從該節(jié)點所在的同一 Rack 上選擇其他節(jié)點。如果該 Rack 上的所有節(jié)點都不能滿足當(dāng)前任務(wù)執(zhí)行的要求,那么 JobTracker就將任務(wù)重新分配給其他 Rack 上的節(jié)點。從上面的實現(xiàn)過程分析來看,本地性計算問題主要會涉及到任務(wù)的再次分配消耗 I/O帶寬資源。而在大規(guī)模集群中,I/O 帶寬是稀缺性資源,因此說,解決好本地性問題有利于減少網(wǎng)絡(luò)帶寬資源耗費,進(jìn)而提高集群的吞吐率,對于提升集群性能具有重要意義。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮電子信息產(chǎn)業(yè)股份有限公司,未經(jīng)浪潮電子信息產(chǎn)業(yè)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310577071.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種處理串行任務(wù)的數(shù)據(jù)處理裝置及方法
- 一種將MapReduce轉(zhuǎn)換為SQL的方法和裝置
- 一種基于MapReduce的數(shù)據(jù)處理方法和裝置
- MapReduce應(yīng)用的相關(guān)參數(shù)的配置方法和裝置
- MapReduce作業(yè)處理系統(tǒng)、服務(wù)器及處理方法
- 一種考慮任務(wù)相關(guān)性的Hive優(yōu)化方法及系統(tǒng)
- 一種運行MapReduce作業(yè)的方法、裝置及系統(tǒng)
- 一種數(shù)據(jù)查詢的優(yōu)化方法和裝置
- 一種Sqoop集成多版本HBase的方法及裝置
- 一種計算HiveSql執(zhí)行進(jìn)度的方法
- 旅游車輛調(diào)度監(jiān)控方法及其系統(tǒng)
- 一種用戶隊列調(diào)度的方法和裝置
- 一種資源調(diào)度的方法、裝置和過濾式調(diào)度器
- 一種調(diào)度方法和裝置
- 一種調(diào)度終端動態(tài)切換調(diào)度組歸屬關(guān)系的方法及裝置
- 用戶調(diào)度方法、裝置、基站和存儲介質(zhì)
- 一種食材的調(diào)度系統(tǒng)和方法
- 一種資源調(diào)度的方法、裝置和過濾式調(diào)度器
- 任務(wù)調(diào)度方法、裝置、設(shè)備及存儲介質(zhì)
- 一種自動化調(diào)度系統(tǒng)和調(diào)度方法





