[發明專利]一種針對迭代應用的Spark平臺資源動態分配方法及系統有效
| 申請號: | 201710481071.1 | 申請日: | 2017-06-22 |
| 公開(公告)號: | CN107291550B | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 王芳;馮丹;李源 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 華中科技大學專利中心 42201 | 代理人: | 廖盈春;李智 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 應用 spark 平臺 資源 動態分配 方法 系統 | ||
本發明公開了一種針對迭代應用的Spark平臺資源動態分配方法及系統,包括:根據Spark集群的硬件信息為Spark集群的任務執行單元分配第一資源以用于任務執行單元執行迭代應用;確定每個監控周期下每個計算節點在執行所述迭代應用時的軟件信息;根據每個計算節點在第m個監控周期下和第m+1個監控周期下執行迭代應用時的軟件信息確定所述迭代應用對所述第一資源的使用量達到收斂;根據第1至第m+1個監控周期下每個計算節點在執行所述迭代應用時的軟件信息為Spark集群的任務執行單元分配第二資源,以用于任務執行單元重新執行所述迭代應用。本發明在保證迭代應用正常而高效運行的同時,可以自動釋放其占用的冗余系統資源,提高系統的整體資源利用率與應用的并發度。
技術領域
本發明屬于大數據技術領域,更具體地,涉及一種針對迭代應用的Spark平臺資源動態分配方法及系統。
背景技術
隨著“互聯網+”時代的來臨,大數據日趨成為現今各行各業的熱門話題。如何對海量的數據進行計算處理,使其價值最大化,是人類面臨一個非常重大的挑戰。AMP實驗室提出了一種分布式內存抽象,稱為彈性分布式數據集(RDD,Resilient DistributedDatasets),RDD允許用戶顯式地把工作集緩存在內存中,因此在未來重用時能夠極大地提升速度。
AMP實驗室在Spark系統中實現了RDD,并使用Spark來開發各種并行應用。Spark有諸多優異的特性:Spark最大的優點是能夠將中間結果保存在內存中,計算速度比HadoopMapReduce快100倍以上;Spark便于使用,如用戶能夠用Java、Scala、Python和R語言快速地編寫應用程序;Spark具有通用性,能夠在其上運行SQL查詢、流計算以及機器學習和圖計算等復雜的計算分析,同時Spark能夠以多種模式運行,并能夠從HDFS、Cassandra、HBase等多種數據流或文件系統中讀取數據。
應用程序提交到Spark集群后,會根據其中的action算子,將應用程序劃分為多個Job,每個Job根據RDD的依賴關系劃分為多個Stage,每個stage就是一個任務集,再分配到集群各個計算節點進行執行。Spark系統往往會有一個主節點(Master)以及一個或多個計算節點(Worker),應用運行時,會在Worker節點上啟動一個或多個任務執行單元(Executor),Executor是Spark系統的任務執行單元。在Spark系統上啟動一個應用程序后,默認的資源分配策略,會在每個Worker上啟動一個Executor,并為每個Executor分配1GB內存以及全部的CPU資源。
但是,默認的Spark資源分配策略是一種靜態的方法,一方面,當應用需要的內存較大,超出Executor的內存容量時,應用執行效率極低,甚至無法執行;另一方面,為每個Executor分配的全部CPU資源不一定能夠充分利用,可能導致CPU利用率低下,且無法在運行時釋放系統CPU資源,系統中其他應用提交以后,只能等待當前應用執行完畢,釋放占用的資源后才能繼續執行。另外,用戶可以手動配置為Executor分配的內存以及CPU資源,但是不同應用的特點不同,其對于資源的需求情況也有極大差異。同種應用當負載數據量不同時,對于資源的需求情況也不盡相同。因此,如何為Executor分配合適的資源,可能會對Spark用戶帶來極大的困擾。用戶往往需要靠經驗積累,甚至多次枚舉各種配置參數組合運行應用程序,來獲取針對特定應用程序的合適的資源分配量,而這種方法成本高、效率低。
綜上,Spark現有的資源分配策略是一種靜態的方法,一方面可能導致應用執行效率低甚至無法執行,另一方面可能導致系統的資源利用率低下,同時如何為應用程序分配合適的資源并非易事,往往會給用戶帶來極大的困擾。
發明內容
針對現有技術的缺陷,本發明的目的在于解決現有Spark資源分配策略是靜態方法,可能導致應用執行效率低甚至無法執行或者系統的資源利用率低下,以及用戶以手動配置Spark資源不能針對不同應用的特點分配合適資源的技術問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710481071.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能執行檢索任務的方法及裝置
- 下一篇:一種容器的負載均衡調度方法和裝置





