[發明專利]一種分布式數據處理系統中的內存預估與配置優化的方法有效
| 申請號: | 201810184254.1 | 申請日: | 2018-03-06 |
| 公開(公告)號: | CN108415776B | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 石宣化;金海;柯志祥;吳文超 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F9/445 |
| 代理公司: | 北京海虹嘉誠知識產權代理有限公司 11129 | 代理人: | 何志欣;侯越玲 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布式 數據處理系統 中的 內存 預估 配置 優化 方法 | ||
本發明涉及一種分布式數據處理系統中的內存預估與配置優化的方法,至少包括:將經過針對應用jar包中程序代碼的條件分支和/或循環體分析及處理的程序數據流與數據特征庫進行匹配,并基于匹配成功的結果預估至少一個階段的內存上限,基于所述內存上限對應用程序進行配置參數優化,基于優化后應用程序的運行過程采集程序數據的靜態特征和/或動態特征并進行持久化記錄。本發明與機器學習進行內存預估的黑盒模型不同,機器學習預測的結果準確性不一定高,而且難以做到每個階段的細粒度預測。而本發明利用程序分析和已有的數據特征較精確地預測到整體的內存占用,可以根據程序分析預估出job的每個階段內存使用情況,做出更進一步的細粒度配置優化。
技術領域
本發明涉及分布式數據處理系統技術領域,尤其涉及一種分布式數據處理系統中的內存預估與配置優化的方法和系統。
背景技術
隨著因特網和移動互聯網的發展,海量數據促使著分布式數據處理系統在大數據處理上的應用越來越廣泛,發展也非常迅速。具有代表性的分布式處理系統Hadoop采用MapReduce算法,可以支持單臺機器所不能完成的海量數據分析和處理。但Hadoop因為要頻繁的讀寫磁盤所以引來IO性能上的瓶頸。鑒于這些欠缺,新一代基于內存計算的分布式數據處理系統例如Spark,Flink開始出現并快速發展。Spark以RDD為基本數據單位,將SQL,Streaming,MapReduce等模型劃歸到一個平臺下成為一個完整的系統架構。Spark等分布式系統將大量重要的中間數據緩存在內存來加速迭代計算應用。因此處理數據時需要大量的內存空間。
現有的云平臺上可能有多個分布式任務在進行處理,而內存資源是共有的,所以內存的合理分配顯得尤為重要。這里以Spark為例,當給一個Spark應用任務分配過少的內存會導致Shuffle或者cache中的數據spill到磁盤,導致大量的IO操作,失去了內存計算的優勢,最終導致任務性能的整體下降,甚至會內存溢出。若分配過多的內存,則會導致內存資源的冗余和浪費。
目前內存預估是采用黑盒模型,采用機器學習的方式。首先總數據集隨機劃分成多個小數據集,然后由分布式應用進行處理,對運行時的特征和內存使用進行統計。然后對訓練集進行建模,最后通過正式數據集的特征來預測內存的使用。同時這種黑盒模型也可以通過應用和數據的特征來對任務的運行時間進行預測。
然而,上述方法存在一定的缺陷和局限性:一方面是機器學習只能針對某種特定類型的應用,某個應用訓練出來的模型對其他應用起效甚微,所以針對不同應用經常要建立多個模型,具有一定的局限性。另一方面,由于是機器學習的黑盒模型,所以預測的結果具有一定不確定性,與真實的運行內存可能具有一定差異。而且分布式應用大多包含多個階段,比如各階段的內存變化很難動態預估到。
中國專利(CN 106598644A)公開了一種終端設備的內存優化方法,其特征在于,其包括:當終端設備接收到安裝應用的請求時,獲取所述應用的包名及版本號;根據所述應用的包名及版本號從預先配置的服務端獲取所述應用需占用的第一內存數據,并將第一內存數據與系統為所述應用設置的內存x值進行比較;當所述第一內存數據大于內存閾值時,提示用戶所述應用占用內存過大,并根據用戶的操作指令確定是否繼續安裝所述應用。該專利通過對待安裝應用的內存數據進行判斷,當安裝應用占用內存過大的應用時,會給予用戶提示,讓用戶決定是否繼續安裝該應用。但是,該專利不能夠利用程序分析來預估應用需要的最佳內存,也無法動態預估應用各階段的內存變化。
發明內容
針對現有技術之不足,本發明提供一種分布式數據處理系統中的內存預估與配置優化的方法,其特征在于,所述方法至少包括:將經過針對應用jar包中程序代碼的條件分支和/或循環體分析及處理的程序數據流與數據特征庫進行匹配,基于匹配成功的結果預估至少一個階段的內存上限并對應用程序進行配置參數優化,基于優化后應用程序的運行過程采集程序數據的靜態特征和/或動態特征并進行持久化記錄。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810184254.1/2.html,轉載請聲明來源鉆瓜專利網。





