[發明專利]一種基于統計分析的Hadoop配置參數優化方法有效
| 申請號: | 201510096561.0 | 申請日: | 2015-03-04 |
| 公開(公告)號: | CN104750780B | 公開(公告)日: | 2017-10-13 |
| 發明(設計)人: | 楊海龍;欒鐘治;錢德沛 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/46 |
| 代理公司: | 北京永創新實專利事務所11121 | 代理人: | 李有浩 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 統計分析 hadoop 配置 參數 優化 方法 | ||
技術領域
本發明涉及云計算的大數據處理技術領域,特別是涉及一種基于統計分析的Hadoop配置參數優化方法。
背景技術
云計算的興起,其計算資源動態、彈性可伸縮的技術優勢為互聯網應用提供了新的契機。然而大型互聯網應用,例如Google、Yahoo!和Facebook,每天需要處理百萬個以上的用戶請求,分析TB量級的用戶數據,如何利用云計算的優勢,編寫出高效的并行和分布式應用卻并不簡單,特別是如何處理好大規模并行和分布式環境下的容錯問題顯得更為復雜。為了解決云計算環境下編程困難的問題,提高應用開發效率,讓程序員將精力集中在應用的業務邏輯實現而不是底層復雜的容錯處理上,Google最先提出了MapReduce編程模型。該模型允許程序員實現Map函數用于處理輸入鍵值對并產生相應的中間結果,同時根據用戶實現的Reduce函數將所有的中間結果鍵值對合并并產生最終輸出。Hadoop作為目前最成功的MapReduce編程模型開源實現,已經被學術界和產業界所廣泛采用。Yahoo!在其數據中心內上千個節點的Hadoop集群上每日成功處理上百TB的用戶數據;科研社區EGEE也開發了自己的MapReduce實現,用于為全世界用戶尋找合適的軟件組件。
為了利用好MapReduce強大的并行處理能力,需要程序員將應用的業務邏輯通過一系列的MapReduce作業(jobs)描述出來。MapReduce的整個執行過程可以分為兩大部分:Map階段和Reduce階段。每一個階段都會有一組鍵值對作為輸入和輸出,而具體鍵值對的格式則由程序員根據應用需要進行定制。另外程序員還需要實現兩個邏輯功能,即Map邏輯和Reduce邏輯。Map邏輯會被施加到每一對輸入鍵值對,同時產生一組中間鍵值對。Reduce邏輯將所有的中間鍵值對作為輸入,并對鍵進行排序,最終產生另一組輸出鍵值對。Map和Reduce階段的所有輸入和輸出鍵值對都會被存儲在底層的分布式文件系統中(HDFS)。在MapReduce應用執行過程中,MapReduce實現框架自動從HDFS中讀取輸入輸出數據、并行化任務的執行過程、協調任務間的網絡通信,同時提供容錯處理。
然而如何對MapReduce應用在其運行的Hadoop平臺上進行優化,從而獲得較好的性能卻始終極具挑戰。首先,不同應用的行為特性不同,因而對資源的需求迥異,例如統計類型的應用在處理過程中需要大量CPU計算資源,而文件處理類型的應用則會產生大量的I/O操作;其次,Hadoop平臺本身存在著超過上百個的配置調優參數,且不同配置參數之間相互影響,對系統管理員和應用專家進行性能調優帶來極大的負擔,如圖1所示,由于配置參數間存在著關聯關系,因此應用的性能最優點并不是簡單地將所有參數設置為最大值;最后,即使能獲得一個全局最優的系統配置,該系統配置也不具備可移植性,對于不同的平臺硬件配置和不同行為特性的應用,該系統配置可能無法獲得應用最優性能,嚴重時甚至無法保證應用正常運行。
綜上可以看出,如何根據不同應用的行為特征,選擇合適的Hadoop系統配置參數,同時在應用需要遷移時,能夠對新系統上的參數配置方案提供指導,對于改善運行在Hadoop之上應用的性能,提高整個系統的可用性是至關重要的。
發明內容
針對Hadoop系統的現有技術的以上缺陷和改進需求,本發明提出了一種基于統計分析的Hadoop配置參數優化方法,解決了原有Hadoop系統在配置參數優化時的困難,能夠準確預測不同配置參數下應用的性能,為系統針對不同應用的性能調優提供了指導。
本發明的一種基于統計分析的Hadoop配置參數優化方法,包括有下列步驟:
第一步:配置Hadoop系統的工作負載集;
第二步:配置Hadoop系統的參數集;
第三步:配置參數取值類型和范圍;
第四步:配置硬件環境;
第五步:依據配置參數運行Hadoop的系統;
根據第一步至第四步設置的系統配置參數取值范圍,首先為Hadoop系統集群選擇任意一參數配置組合confM,然后選擇工作負載集中的任意一次應用appi,最后運行Hadoop的系統,記錄下應用樣本記錄
第六步:構建樣本輸入矩陣;
將第五步采集到的應用樣本記錄組織成樣本輸入矩陣S,所述輸入矩陣S中的每一行為選擇的配置參數,每一列為應用appi的運行樣本。
第七步:聚類分析得到聚類特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510096561.0/2.html,轉載請聲明來源鉆瓜專利網。





