[發(fā)明專利]一種在線管理Hadoop集群資源的方法和裝置有效
| 申請?zhí)枺?/td> | 201310646044.7 | 申請日: | 2013-12-04 |
| 公開(公告)號: | CN103713935B | 公開(公告)日: | 2017-05-03 |
| 發(fā)明(設計)人: | 貝振東;喻之斌;曾經緯;張慧玲;須成忠 | 申請(專利權)人: | 中國科學院深圳先進技術研究院 |
| 主分類號: | G06F9/455 | 分類號: | G06F9/455;G06F9/50;H04L29/08 |
| 代理公司: | 深圳中一專利商標事務所44237 | 代理人: | 張全文 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 在線 管理 hadoop 集群 資源 方法 裝置 | ||
技術領域
本發(fā)明涉及云計算領域,具體涉及一種在線管理Hadoop集群資源的方法和裝置。
背景技術
Hadoop是Apache開源組織的一個分布式計算開源框架,被設計用來在由通用計算設備組成的大型集群上執(zhí)行分布式應用。基于Java語言構建的Hadoop框架實際上是一種分布式處理大數據的平臺,在近十年中,Hadoop已成為大數據革命的中心。MapReduce作為Hadoop的核心,是一種處理大型及超大型數據集(TB級別的數據,包括網絡點擊產生的流數據、日志文件和社交網絡等所帶來的數據)并生成相關的執(zhí)行的編程模型,其主要思想是從函數式編程語言借鑒而來的,同時也包含了從矢量編程語言借鑒的特性。由于Hadoop具備低成本和前所未有的高擴展性,Hadoop已被公認為是新一代的大數據處理平臺,在很多大型網站上都已經得到了應用,例如,亞馬遜、Facebook和Yahoo等等。
然而,美中不足的是:運行Hadoop或其它基于MapReduce的集群需要用戶手工進行長時間的配置、管理和集群節(jié)點數量的調整。在部署Hadoop云計算框架時,若用戶自行搭建大規(guī)模數據處理環(huán)境,則需要用戶根據處理的作業(yè)和數據量大小綜合考慮集群中各個節(jié)點的計算能力、帶寬和存儲等問題。
為解決上述問題,可以將Apache的Hadoop構建在虛擬機上,實現資源的按需分配,并且自動化集群的配置和管理。現有的一種管理Hadoop集群資源的方法是Amazon EC2提出的所謂彈性Apache Hadoop,彈性Apache Hadoop構建在EC2和S3上,并且利用預先配置的Hadoop工作環(huán)境提供EMR(Elastic MapReduce)服務,以按用量付費的方式按需使用由Hadoop集群組成的計算處理環(huán)境和大規(guī)模數據存儲環(huán)境。利用這樣的彈性計算環(huán)境,即使是資金不太充裕的創(chuàng)業(yè)型公司,也可以進行按需便捷地進行大數據的分析。
在實施上述現有技術提供的管理Hadoop集群資源的方法中,需要用戶在提交作業(yè)時確定所需要的虛擬資源。由于用戶提交的作業(yè)一般都有時間的限制,用戶只能憑直覺或者經驗申請比較多的虛擬資源以按時完成任務,而申請過多的虛擬資源以運行作業(yè)需要較大的成本。在成本和時間的權衡中,用戶很難確定合適的虛擬資源運行自己的作業(yè),如此,就很難實現在按時完成作業(yè)的前提下盡可能地降低成本。而且,作業(yè)在運行過程中處理的數據一般是不同的,處理不同的數據會使得MapReduce程序性能地變化,如此,也有可能會造成最終完成時間的變化。
發(fā)明內容
本發(fā)明實施例提供一種在線管理Hadoop集群資源的方法和裝置,以根據作業(yè)在線運行的特點動態(tài)地調整所需虛擬資源,避免資源的浪費。
本發(fā)明實施例提供一種在線管理Hadoop集群資源的方法,所述方法包括:
作業(yè)管理器對生產環(huán)境集群中用戶所提交作業(yè)運行情況進行監(jiān)控;
日志分析器獲取在所述生產環(huán)境集群中使用k臺運行代價TotalCost最小的虛擬機中的任意一臺作為虛擬資源運行所述用戶所提交作業(yè)中m個map任務和r個reduce任務時所述m個map任務的槽平均處理速度MapSlotSpeed和所述r個reduce任務的槽平均處理速度ReduceSlotSpeed;
代價預測器根據虛擬機信息數據庫保存的所述運行代價TotalCost最小的虛擬機的性能特征、所述MapSlotSpeed、ReduceSlotSpeed和用戶對所提交作業(yè)的期望完成時間ExpectTime,重新確定在所述生產環(huán)境集群中運行所述用戶所 提交作業(yè)需要所述運行代價TotalCost最小的虛擬機的數量knew;
虛擬資源管理器比較所述knew和所述k,若所述knew和所述k不等,則將所述生產環(huán)境集群中所述運行代價TotalCost最小的虛擬機調整至knew臺。
本發(fā)明另一實施例提供一種在線管理Hadoop集群資源的裝置,所述包括:
作業(yè)管理器,用于對生產環(huán)境集群中用戶所提交作業(yè)運行情況進行監(jiān)控;
日志分析器,用于獲取在所述生產環(huán)境集群中使用k臺運行代價TotalCost最小的虛擬機中的任意一臺作為虛擬資源運行所述用戶所提交作業(yè)中m個map任務和r個reduce任務時所述m個map任務的槽平均處理速度MapSlotSpeed和所述r個reduce任務的槽平均處理速度ReduceSlotSpeed;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院深圳先進技術研究院,未經中國科學院深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310646044.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高純度、高收率藥物重結晶裝置
- 下一篇:一種汽油抗爆劑MMT的精餾工藝裝置





