[發(fā)明專利]一種于Hadoop平臺中動態(tài)調整任務數(shù)目的方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310700010.1 | 申請日: | 2013-12-18 |
| 公開(公告)號: | CN103699433B | 公開(公告)日: | 2017-07-14 |
| 發(fā)明(設計)人: | 康凱;趙霞;宋瑩;孫毓忠 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F9/46 | 分類號: | G06F9/46;G06F9/50 |
| 代理公司: | 北京律誠同業(yè)知識產權代理有限公司11006 | 代理人: | 祁建國,田景宜 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 hadoop 平臺 動態(tài) 調整 任務 目的 方法 系統(tǒng) | ||
技術領域
本發(fā)明涉及Hadoop分布式計算平臺,特別是涉及于MapReduce計算框架下進行任務調度的方法及系統(tǒng)。
背景技術
在云計算模式下,Hadoop平臺為數(shù)據(jù)中心的用戶提供了大量的服務,與此同時,由于數(shù)據(jù)中心機器的多樣性、用戶提交作業(yè)的復雜性、處理的數(shù)據(jù)與日俱增,Hadoop平臺本身面臨著巨大的挑戰(zhàn),并且這些挑戰(zhàn)對Hadoop的性能有較大的影響。因此,如何使得Hadoop平臺更適應集群的多樣性、作業(yè)的復雜性,增強其健壯性,保持其原有的可擴展性、低成本、高效率、容錯性等特性成為了改善Hadoop性能的關鍵。
針對Hadoop性能的優(yōu)化,目前可分為四類:
1.以提高集群中資源利用率為目的的優(yōu)化,如Fairness Scheduler[1][2][3][11]、Capacity Scheduler[4]、A Dynamic Map Reduce Scheduler[8],這些優(yōu)化方法的共同點都是將用戶提交的作業(yè)組織成不同的隊列,然后為每一個隊列分配不同大小的資源,以達到資源公平的、充分的使用。
2.以增加任務本地化的比例來縮短作業(yè)執(zhí)行時間為目的的優(yōu)化,如Delay Scheduler[5]、Locality-Aware Scheduler[12],這些優(yōu)化方法的共同點是通過數(shù)據(jù)分布的信息,增加任務本地化執(zhí)行的數(shù)量,減少由于任務拷貝數(shù)據(jù)所花費的IO時間來縮短任務執(zhí)行的時間。
3.以提高系統(tǒng)吐吞量為目的的優(yōu)化,如Context Aware Scheduler[10],優(yōu)化方案的特點是將任務和節(jié)點同時按照CPU密集型和IO密集型進行劃分,然后將任務依據(jù)對不同類型的節(jié)點的需求進行分配,改善系統(tǒng)的吞吐量。
4.通過優(yōu)化推測任務執(zhí)行來縮短作業(yè)的執(zhí)行時間,如LATE Scheduler[6][7]、A Load-Aware Scheduler[9],這些優(yōu)化方法的共同點是通過實時獲取作業(yè)執(zhí)行進度的信息及數(shù)據(jù)所存放的位置,提高推測任務執(zhí)行的準確率、本地化率,達到縮短作業(yè)執(zhí)行時間的目的。
但是依舊沒有解決的問題是:
Hadoop平臺無法感知集群節(jié)點的異構性狀況,無法根據(jù)節(jié)點自身的處理能力合理有效的初始化集群配置,同時也無法根據(jù)任務的執(zhí)行狀況、集群中異構節(jié)點的處理能力和資源使用情況自動的調整節(jié)點上運行的任務數(shù)目和資源使用情況,即無論任務的當前任務的執(zhí)行速率如何以及系統(tǒng)的各個資源消耗狀態(tài)如何,Hadoop都無法自動的調整節(jié)點上資源的使用狀態(tài)以使任務的執(zhí)行達到高效的狀態(tài)且系統(tǒng)資源得到充分的利用。因為目前Hadoop調度算法中沒有考慮平臺運行在異構環(huán)境下的諸多不同的因素及變化因素,也沒有在平臺運行中提供修改任務Slots的方法和策略。由于上述的問題使得Hadoop平臺在集群和作業(yè)都是異構的情形下,其性能受到了嚴重的影響并且遇到了瓶頸。
發(fā)明內容
本發(fā)明解決的問題在于,自動的調整節(jié)點上運行的任務數(shù)目,以使Hadoop平臺體現(xiàn)出較高的任務執(zhí)行效率。
更進一步的,實現(xiàn)集群運行任何異構性的作業(yè)或者作業(yè)運行在任何異構性的集群中都能使Hadoop平臺體現(xiàn)出良好的性能。
更進一步的,通過感知機制對節(jié)點中的資源、任務進行動態(tài)的調整,提高集群中的資源使用率以縮短作業(yè)的響應時間,使得集群中的資源和任務執(zhí)行速率達到最佳匹配的狀態(tài)。
更進一步的,使用感知節(jié)點的計算能力、任務執(zhí)行狀態(tài)實現(xiàn)動態(tài)調整Slots數(shù)目,有效的感知了集群和作業(yè)的異構性。
本發(fā)明公開了一種于Hadoop平臺中動態(tài)調整任務數(shù)目的方法,包括:
步驟10,持續(xù)獲取節(jié)點中運行的任務的執(zhí)行速率;
步驟20,計算執(zhí)行速率在下降的任務的個數(shù);
步驟30,根據(jù)該個數(shù)判斷是否需要調整節(jié)點中所運行的任務的數(shù)目。
步驟10之前還包括:
步驟1,獲取集群中每個節(jié)點的處理能力;
步驟2,獲取每個節(jié)點的處理資源的使用率。
所述的方法還包括:
該獲取集群中每個節(jié)點的處理能力的步驟進一步包括:讀取每個節(jié)點上的CPU核數(shù);和/或
該獲取每個節(jié)點的處理資源的使用率的步驟進一步包括:每隔固定時間間隔讀取每個節(jié)點的CPU使用率以及內存使用率。
該步驟10進一步包括:
在節(jié)點的每個任務的執(zhí)行過程中,以固定時間間隔持續(xù)獲取該任務的當前執(zhí)行進度,據(jù)以計算各時間點的執(zhí)行速率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310700010.1/2.html,轉載請聲明來源鉆瓜專利網。
- 一種實現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調用hadoop集群的方法和裝置
- 一種基于可信計算的Hadoop平臺度量方法
- 云環(huán)境中模型驅動的Hadoop部署方法
- 基于麒麟云計算平臺的Hadoop集群自動化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲、查詢的方法、裝置、系統(tǒng)、設備、存儲介質
- 一種文件型門衛(wèi)式存儲加密功能的Hadoop系統(tǒng)及其應用方法





