[發(fā)明專利]一種大數據分析任務的高效云配置選擇算法有效
| 申請?zhí)枺?/td> | 201910294273.4 | 申請日: | 2019-04-12 |
| 公開(公告)號: | CN110048886B | 公開(公告)日: | 2020-05-12 |
| 發(fā)明(設計)人: | 陳艷姣;林龍 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L29/08;G06N20/00 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 齊晨涵;姜學德 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 分析 任務 高效 配置 選擇 算法 | ||
本發(fā)明提出了一種大數據分析任務的高效云配置選擇算法,通過選取部分輸入數據進行小規(guī)模集群實驗,進而構建性能預測模型,利用性能預測模型預估任務在大規(guī)模集群上的性能表現,并且通過性能預測結果來確定最佳的云配置。通過使用上述算法,能夠用更低的模型訓練時間和成本來有效地幫助用戶找到最佳的云配置。為部署在云計算平臺上的大規(guī)模數據分析任務選擇最佳的云配置,可以顯著提高其運行效率,并且降低運行成本。
技術領域
本發(fā)明屬于云計算領域,尤其涉及基于大數據分析任務的高效云配置算法。
背景技術
大規(guī)模數據分析任務日益增長,涉及的任務內容也日益復雜,其中經常涉及機器學習、自然語言處理和圖像處理等方面。與傳統(tǒng)計算任務相比,此類任務通常是數據密集型和計算密集型的,需要更長的計算時間和更高的計算成本。因此為了完成大規(guī)模數據分析任務,通常利用云計算巨大的計算能力來幫助完成任務。為大規(guī)模分析任務選擇最佳的云配置,能夠提高任務的運行效率,并且能降低用戶的計算成本。
為了滿足不同的計算要求,現有的云服務提供商為用戶提供上百種具有不同資源配置的實例類型(如亞馬遜的EC2、微軟的Azure和谷歌的ComputeEngine)。雖然大多數云服務提供商只允許用戶從可用實例類型池中進行選擇實例類型,但Google的Compute Engine允許用戶自定義配置虛擬機(配置vCPU和內存),這也使得選擇正確的云配置變得更具挑戰(zhàn)性。除此之外,各大云服務提供商也提供了Serverless云架構(例如亞馬遜Lambda,谷歌Cloud Functions和微軟Azure Functions),這項服務允許用戶將任務作為Serverless功能運行,而無需使用預先指定的配置啟動實例。但是,Serverless架構可能需要應用程序重構其代碼,而且Serverless云提供商并不能夠幫助用戶將任務完成時間最小化,或者幫助用戶降低計算成本。
云配置的選擇,即實例的類型和實例數量的選擇,直接影響任務的完成時間和耗費的經濟成本。正確選擇的云配置可以以更低的成本實現相同的性能目標。由于大規(guī)模數據分析任務更長的運行時間,發(fā)掘潛在的可節(jié)省成本就顯得更為重要。由于任務的多樣化,以及實例類型和集群規(guī)模的組合多樣化,使得云配置的搜索空間變得巨大。
在如此龐大的搜索空間中,對最佳云配置的使用窮舉搜索既不實際也難以擴展。為限制搜索空間,CherryPick算法通過使用有限的任務信息來限制搜索空間,以此來選擇最佳云配置。CherryPick針對成本最小化進行了優(yōu)化,但不能用于優(yōu)化其他目標,例如通過成本預算來最小化作業(yè)完成時間。除此之外,Ernest和PARIS則使用性能建模方法來選擇云配置。通過使用這類性能預測模型,用戶可以為優(yōu)化目標不同的任務選擇不同的云配置,例如,選擇最廉價或最快速的云配置。但是,Ernest需要為每個實例類型訓練預測模型,而PARIS僅在多個公共云中選擇最佳實例類型,而不能給出集群大小。
發(fā)明內容
本發(fā)明針對現有技術的不足,提出一種大數據分析任務的高效云配置選擇算法。
本發(fā)明的技術方案為一種大數據分析任務的高效云配置選擇算法,包含以下步驟:
步驟1:訓練數據收集階段,實現方式如下,
訓練數據收集器僅對輸入數據的一小部分進行特定實例類型的實驗,這將用于預測在整個輸入數據上任務執(zhí)行的性能。訓練數據收集包括實驗選擇和實驗執(zhí)行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910294273.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統(tǒng)、數據中繼設備、數據中繼方法、數據系統(tǒng)、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發(fā)送方法、數據發(fā)送系統(tǒng)、數據發(fā)送裝置以及數據結構
- 數據顯示系統(tǒng)、數據中繼設備、數據中繼方法及數據系統(tǒng)
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發(fā)送和數據接收設備、數據發(fā)送和數據接收方法
- 數據發(fā)送裝置、數據接收裝置、數據收發(fā)系統(tǒng)、數據發(fā)送方法、數據接收方法和數據收發(fā)方法
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置





