[發明專利]Hadoop的配置參數的計算方法及系統在審
| 申請號: | 201511025710.0 | 申請日: | 2015-12-30 |
| 公開(公告)號: | CN105653355A | 公開(公告)日: | 2016-06-08 |
| 發明(設計)人: | 劉勇;喻之斌;須成忠 | 申請(專利權)人: | 中國科學院深圳先進技術研究院 |
| 主分類號: | G06F9/46 | 分類號: | G06F9/46 |
| 代理公司: | 深圳市科進知識產權代理事務所(普通合伙) 44316 | 代理人: | 郝明琴 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | hadoop 配置 參數 計算方法 系統 | ||
技術領域
本發明涉及計算機領域,尤其涉及一種Hadoop的配置參數的計算方法及系 統。
背景技術
Hadoop是一個開源的分布式計算框架,其借鑒了MapReduce編程思想,簡 化了數據的分發、處理、計算和任務的調度,并具有容錯、高可靠、可擴展等 特性。編程人員只需要編寫Map和Reduce函數,而Hadoop會自動將任務分配 到集群的各個節點,并執行任務。因此,該框架降低了并行編程的難度,而且 編程人員也可以充分利用硬件的資源。目前Hadoop已廣泛應用于工業界和學術 界。
但MapReduce任務的性能由眾多因素組成,如物理機群的硬件環境,操作 系統參數的配置,JVM性能,任務的調度,以及Hadoop配置參數等等。其中 Hadoop的參數配置對性能的影響至關重要。而基于經驗的手調方案成本高,耗 時長。Hadoop具有190多個配置參數,用戶在提交作業時需要指定一些參數, 而用戶不知道如何調整這些參數,所以大多數用戶只能使用默認配置參數,但 這不能最大程度挖掘Hadoop系統性能。有些用戶根據經驗采用暴力的方案去一 一嘗試關鍵的參數,但是每個參數取值有很多種,樣本空間巨大,且Hadoop配 置參數之間關系復雜,有些參數之間相互依賴。同時,不同任務的最佳參數組 合也是不同的,所以采用暴力嘗試的方案是不合適的。論文(柳香,李瑞臺,李 俊紅,段勝業,2011)“Hadoop性能優化研究”,提出采用機器學習算法遺傳算 法對配置方案進行選擇、交叉、變異,多次迭代后產生近似最優方案。遺傳算 法具有自適應性、收斂性好、魯棒性高等優點,但該方案需要考慮所有配置參 數的組合,計算量大。
在實現現有技術的方案中,發現現有技術存在如下技術問題:
(1)僅僅基于遺傳算法的方案,需要考慮所有配置參數的組合情況,Hadoop 有190多個配置參數,每個參數都有一定的閾值,組合情況大,計算量也大。
(2)基于代價的優化方案對Hadoop任務階段進行劃分,假設原子操作的 代價不變,但試驗數據顯示CETMPR,READIO,WRITEIO,NET,RDCPU,PTCPU 這6個原子操作代價變化明顯,所以基于不正確的假設建立的分析模型精度不 高。
(3)AROMA建立的模型任務粒度不夠細。
發明內容
提供一種Hadoop的配置參數的計算方法,所述Hadoop的配置參數的計算 方法解決現有技術的計算量大、粒度不夠細和精度不高的問題。
一方面,提供一種Hadoop的配置參數的計算方法,所述方法包括如下步驟:
對工業環境下的實際的生產數據采樣獲得工業環境的小數據集;
隨機產生Hadoop配置參數,并將工業環境的小數據集運行于Hadoop集群, 輸出為運行時間‘
以時間為類標,Hadoop配置參數的組合為輸入,采用信息增益的方案,輸 出為Hadoop的重要配置參數;
采用遺傳算法對獲取的重要性參數迭代搜索最優配置組合。
可選的,所述采用遺傳算法對獲取的重要性參數迭代搜索最優配置組合具 體,包括:
使用機器學習算法遺傳算法對所述重要性參數進行選擇、交叉、變異,多 次迭代搜索近似最優配置組合。
可選的,所述方法還包括:
用最優配置組合替換所述工業環境的Hadoop配置值。
另一方面,提供一種Hadoop的配置參數的計算系統,所述系統包括:
采樣單元,用于對工業環境下的實際的生產數據采樣獲得工業環境的小數 據集;
隨機單元,用于隨機產生Hadoop配置參數,并將工業環境的小數據集運行 于Hadoop集群,輸出為運行時間‘
信息增益單元,用于以時間為類標,Hadoop配置參數的組合為輸入,采用 信息增益的方案,輸出為Hadoop的重要配置參數;
優化單元,用于采用遺傳算法對獲取的重要性參數迭代搜索最優配置組合。
可選的,所述優化單元具體,用于使用機器學習算法遺傳算法對所述重要 性參數進行選擇、交叉、變異,多次迭代搜索近似最優配置組合。
可選的,所述系統還包括:
替換單元,用于用最優配置組合替換所述工業環境的Hadoop配置值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院深圳先進技術研究院,未經中國科學院深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201511025710.0/2.html,轉載請聲明來源鉆瓜專利網。





