[發明專利]一種Spark環境中基于內存優化任務并行度的方法和系統有效
| 申請號: | 201911247293.2 | 申請日: | 2019-12-09 |
| 公開(公告)號: | CN110928666B | 公開(公告)日: | 2022-03-22 |
| 發明(設計)人: | 李肯立;唐卓;曾愛玲;張學東 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48 |
| 代理公司: | 武漢臻誠專利代理事務所(普通合伙) 42233 | 代理人: | 宋業斌 |
| 地址: | 410001 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 spark 環境 基于 內存 優化 任務 并行 方法 系統 | ||
本發明公開了一種Spark環境中基于內存優化任務并行度的方法,首先提出一種基于RDD的Spark執行引擎分析獲取每個調度任務需要處理的數據量的過程,來預估確定每個任務需要的內存資源;其次,提出一種結合每個任務的輸入數據量以及從節點現有的內存資源來預測從節點可以并發執行的任務數,考慮了Spark任務調度的本地化原則,使得預測的并發數符合實際調度情況,提高調度效率;最后,提出一種基于已經執行的任務內存反饋,使用AIMD算法動態自適應調整每個從節點的最佳任務并發數,彌補了靜態預測的不足,使得任務調度最大限度的符合從節點現有的資源,有效的提高資源使用率以及運行性能。
技術領域
本發明屬于大數據、分布式并行計算領域,涉及一種Spark環境中基于內存優化任務并行度的方法和系統。
背景技術
隨著各種網絡應用程序生成的數據急劇增長,大數據分布式并行計算框架在處理和分析大量數據中具有重要意義。Apache Spark是MapReduce并行計算編程模型一種開源實現,相較于MapReduce的另一種開源實現Hadoop來說,Spark由于它在內存方面的優化,其性能效率至少比Hadoop提升了100多倍,并且其通用性、易用性、可融合性更好,使得它在近年來發展迅速。在研究方面,越來越多的開發者參與到Spark源碼的貢獻中,其代碼庫相較于其它大多數平臺平臺或框架來說最為活躍。在應用方面,它也被愈來愈多商業公司廣泛使用,其中包括阿里巴巴、Cloudera、雅虎等。
Spark在處理大規模數據的時候,在Map階段將輸入數據切分成多個分片,然后每個分片生成相應的任務去處理這些分片的數據,Map階段會生成相應的中間結果,在Reduce階段讀取這些中間結果進行處理。不管是Map階段還是Reduce階段,Spark任務都是以任務的方式調度到從節點(Executor)上去執行,每個從節點上可以同時有多個任務并行執行。在現有的Spark調度機制中,從節點可以同時并行執行的任務數量默認是一個,也可以由用戶通過相應的參數進行指定。
然而,現有的這種Spark調度機制存在兩個不可忽略的缺陷:第一,如果并行執行的任務數量是默認為1個時,一個并行任務會造成Spark程序執行效率的低下以及資源的浪費;第二,如果并行執行的任務數量是由用戶自行設置的,則可能會出現不合理的情況,過多或者過少都是會影響Spark應用程序的執行性能與效率。
發明內容
針對現有技術的以上缺陷或改進需求,本發明提供了一種Spark環境中基于內存優化任務并行度的方法和系統,任務其目的在于,解決現有Spark調度機制中存在的并行執行的任務數量默認為1時,一個并行任務會造成Spark程序執行效率的低下以及資源的浪費的技術問題,以及當并行執行的任務數量是由用戶自行設置時,會影響Spark應用程序的執行性能與效率的技術問題。
為實現上述目的,按照本發明的一個方面,提供了一種Spark環境中基于內存優化任務并行度的方法,所述Spark環境包括一個主節點以及多個從節點,所述方法包括以下步驟:
(1)主節點接收用戶發送的Spark應用程序,對該Spark應用程序進行解析,以得到表征多個彈性分布式數據集RDD之間關系的RDD圖、以及調度階段的有向無環圖DAG;
(2)主節點根據DAG圖中各個調度階段所包括的RDD的數據來源將所有調度階段進行分類。
(3)主節點設置計數器i=1;
(4)主節點判斷i是否大于DAG圖中需要被執行的調度階段總數,如果是則過程結束,否則轉入步驟(5);
(5)主節點執行DAG圖中第i個需要被執行的調度階段,從而獲得該調度階段對應的多個任務,并根據該調度階段在步驟(2)中的分類結果,獲取該調度階段對應的任務所處理的數據量;
(6)主節點計算每個從節點能夠同時處理的任務數量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911247293.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種便于更換刀具的底座
- 下一篇:一種垃圾壓縮脫水機





