[發明專利]一種面向Hadoop的實時作業公平調度的方法和裝置在審
| 申請號: | 201510039532.0 | 申請日: | 2015-01-26 |
| 公開(公告)號: | CN104598311A | 公開(公告)日: | 2015-05-06 |
| 發明(設計)人: | 馬松玉;王軍 | 申請(專利權)人: | 上海卓悠網絡科技有限公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 鄧猛烈;孟金喆 |
| 地址: | 200233 上海市徐匯區桂平*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 hadoop 實時 作業 公平 調度 方法 裝置 | ||
技術領域
本發明涉及高性能集群領域的任務調度方法,尤其涉及一種面向Hadoop的實時作業公平調度的方法和裝置。
背景技術
Hadoop調度器的默認調度算法是Fifo,而且隨著Hadoop技術的發展,后續又出現了一些其他的Hadoop調度算法,這些算法分別從不同角度對作業調度進行了優化,具體包括:
Fifo調度算法(First?Input?First?Output)運行時,如果job1正在運行,job2進入隊列不能馬上運行,必須等job1運行完成才能開始job2的運行。此算法不能同時運行多個作業,會造成長作業長期占據計算資源,后面提交的job往往等待很久也得不到處理,不利于小作業的運行。
計算能力調度算法(Capacity?Scheduler)支持多個對列,每個對列可配置一定的資源量。為了防止統一用戶提交的job獨占對列資源,該調度算法會對對列中統一用戶提交作業所占資源的百分比進行限制,所有提交到對列中的job會共享該對列的資源,一旦出現空閑的便會分配給它,而且能有效地對集群的內存資源進行管理,支持內存密集型的應用。不過該計算能力調度算法不支持資源搶占及負載均衡,當存在高實時性的作業時,計算能力調度算法不能對其及時的調度,且不支持負載均衡的特性還會造成IO熱點。
公平調度算法(Fair?Scheduler)的目的是希望所有作業隨著時間的推移,都能夠平均地獲得等同的共享資源,用以解決多用戶多隊列的調度問題。當一個作業單獨運行時,它能夠使用整個集群的資源。當有其他作業被提交時,系統會將空閑時間片分配給新的作業,使每個作業都能獲得等量的CPU時間。這樣小作業能在合理的時間完成,同時也能夠正常調度長作業。公平調度算法較好的解決了小作業的問題,但是對于高實時作業以及對作業資源的控制上缺少能力,公平調度算法對待新作業采取基于時間的缺額算法,缺額的計算根據作業在集群的等待時間以及作業的數據量進行判斷。這樣的判斷特性造成長作業的周期性提交,而使得小作業或者無輸入的作業的饑餓現象。
LATE調度算法針對集群的異構進行了優化。分布式文件系統MFS使用需求向量來描述作業對各類資源的需求大小,滿足了不同作業對資源的不同需求。將JobTracker上的資源管理和任務監控分布到不同節點上,降低了主節點的負載。
結合上述各類調度算法的特點,對實時作業的需求目前還存在以下幾個缺陷:(1)高實時性的作業無法得到響應;(2)作業執行速度難以控制;(3)針對實時的小作業,Fair?Scheduler基于缺額的資源搶占方法會使得大作業的缺額逐漸變大,而小作業遲遲得不到調度。
發明內容
本發明的目的在于提出一種面向Hadoop的實時作業公平調度的方法和裝置,能夠使用戶實時提交的作業的計算任務在用戶設定的期望執行時間內完成,實現針對用戶實時提交的交互作業的高響應。
為達此目的,本發明采用以下技術方案:
第一方面,提供一種面向Hadoop的實時作業公平調度的方法,包括:
接收提交的作業和該作業的期望執行時間;
根據所述作業,獲得預設的對應所述作業的作業歷史執行數據,并建立代價模型;
將所述作業歷史執行數據代入所述代價模型,計算獲得所述作業的預估執行時間;
根據所述預估執行時間和期望執行時間,分配給所述作業實際需要的資源量,以便所述作業在所述期望執行時間內完成。
其中,所述代價模型的公式為:D+A≥fσ/(nm×Cm)+fσ/(nr×Cr)+fσ/Cd+fσ/Cs;
其中,所述代價模型基于MapReduce框架建立,所述MapReduce框架的作業任務執行階段包括Map任務執行階段和Reduce任務執行階段,所述A為提交作業時的提交時間,所述D為作業的執行時間,所述D+A為預估執行時間,所述fσ為Map任務輸出端的數據量,所述nm為Map任務的Slot數目,所述Cm為Map任務處理單元數據的時間,所述nr為Reduce任務的Slot數目,所述Cr為Reduce任務處理單元數據的時間,所述Cd為轉換單元數據的通信時間,所述Cs為Reduce任務的Sort的速度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海卓悠網絡科技有限公司;,未經上海卓悠網絡科技有限公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510039532.0/2.html,轉載請聲明來源鉆瓜專利網。





