[發明專利]一種Hadoop集群的在線最小化總完工時間的調度方法和裝置在審
| 申請號: | 201410635768.6 | 申請日: | 2014-11-11 |
| 公開(公告)號: | CN105653357A | 公開(公告)日: | 2016-06-08 |
| 發明(設計)人: | 田文洪;李國忠;蔣亞秋;徐敏賢 | 申請(專利權)人: | 田文洪;李國忠;蔣亞秋;徐敏賢 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 hadoop 集群 在線 最小化 完工 時間 調度 方法 裝置 | ||
技術領域
本發明涉及在線集群調度技術領域,尤其涉及一種Hadoop集群在線系統的調度方法、調度裝置。
背景技術
Hadoop是一個以可靠、高效、可伸縮的方式對大量數據進行分布式處理的軟件框架。Hadoop集群(cluster)主要的任務部署分為客戶端(Client)機器、主節點(Masternodes)和從節點(Slavenodes)3個部分,如圖1所示。數據存儲(Hadoop分布式文件系統,HadoopDistributedFileSystem,HDFS)和對運行在這個數據之上的并行計算(MapReduce)的監督是Hadoop的兩個關鍵功能模塊,這兩個關鍵功能模塊主要由主節點負責。HDFS采用主從(Master/Slave)結構模型,一個HDFS集群是由一個名字節點(NameNode)和若干個數據節點(DataNode)組成的。MapReduce框架是由一個單獨運行在主節點上的作業追蹤器(JobTracker)和運行在每個集群從節點上的任務追蹤器(TaskTracker)共同組成。HDFS和MR共同組成Hadoop分布式系統體系結構的核心。
Hadoop是一個實現了MapReduce模式的開源的分布式并行編程框架,它以其通用、方便實用等特征在云計算和大數據處理時代得到了廣泛應用。MapReduce是一種用于大規模數據集(大于1TB)的并行運算的編程模型。MapReduce工作過程包括兩個階段:Map階段和Reduce階段。Map階段包含多個Map任務,Reduce階段包含多個Reduce任務。在正式執行Map函數前,需要對輸入數據進行分片,每個Map任務處理一個邏輯分片(split)。split包含了數據起始位置、數據長度、數據所在節點等元數據信息,其劃分方法通常由用戶自己決定。split的數量決定了Map任務的數量。
HDFS實現Hadoop體系結構中對分布式存儲的底層支持存儲。
NameNode執行文件系統的命名空間,如打開、關閉、重命名文件或目錄等,也負責數據塊到具體DataNode的映射。DataNode既是數據存儲節點,也是計算節點,它負責處理文件系統客戶端的文件讀寫,并在NameNode的統一調度下進行數據庫的創建、刪除和復制工作。
JobTracker主要負責調度Job的每一個子任務task運行于TaskTracker上,并監控它們,如果發現有失敗的task就重新運行它。JobTracker還負責跟蹤任務的執行進度、資源使用量等信息,并將這些信息告訴任務調度器(TaskScheduler),以便于調度器在資源出現空閑時將這些資源分配給合適的任務。TaskTracker主動周期性地調用心跳RPC函數,向JobTracker匯報節點和任務運行狀態信息,同時領取JobTracker返回心跳包的各種命令并執行相應的操作。TaskTracker使用“slot”等量劃分本節點上的資源量。slot是一個邏輯概念,是Hadoop的資源單位,一個節點的slot的數量用來表示某個節點的資源的容量或者說是能力的大小。slot分為Mapslot和Reduceslot兩種,分別供MapTask和ReduceTask使用。每個作業申請資源以slot為單位,每個節點會確定自己的計算能力以及存儲器,確定自己包含的slot總量。當某個作業要開始執行時,先向JobTracker申請slot,一個任務獲取到一個slot后才有機會運行,而Hadoop調度器的作用就是將各個TaskTracker上的空閑slot分配給任務使用。
客戶端機器包含Hadoop集群的所有設置,但它既不是主節點也不是從節點。客戶端機器的作用是向集群保存數據,提交作業給MapReduce進行數據處理,獲取查看任務的計算結果。
Hadoop集群系統中的核心技術是任務調度,在云計算研究中,MapReduce環境的在線作業調度帶來了新的課題和挑戰,引起了越來越多的重視。最初,Hadoop默認的FIFO(先入先出)調度器專為周期性執行大規模批量作業而設計。隨著MapReduce集群系統的用戶數量的增加,計算能力調度器和Hadoop公平調度器(HFS:HadoopFairScheduling)的出現,提供了更高效的集群共享方式,但是,現有的調度器還不能提供對最小化在線作業集完工時間的支持,當提交在線作業為一個作業集時,完工時間可能較長因而導致總能耗較高。
發明內容
本發明要解決的技術問題是:提供一種Hadoop集群在線系統的調度方法、調度裝置,能夠最小化在線作業集的總完工時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于田文洪;李國忠;蔣亞秋;徐敏賢,未經田文洪;李國忠;蔣亞秋;徐敏賢許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410635768.6/2.html,轉載請聲明來源鉆瓜專利網。





