[發(fā)明專利]一種基于統(tǒng)計分析的Hadoop配置參數(shù)優(yōu)化方法有效
| 申請?zhí)枺?/td> | 201510096561.0 | 申請日: | 2015-03-04 |
| 公開(公告)號: | CN104750780B | 公開(公告)日: | 2017-10-13 |
| 發(fā)明(設計)人: | 楊海龍;欒鐘治;錢德沛 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/46 |
| 代理公司: | 北京永創(chuàng)新實專利事務所11121 | 代理人: | 李有浩 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 統(tǒng)計分析 hadoop 配置 參數(shù) 優(yōu)化 方法 | ||
1.一種基于統(tǒng)計分析的Hadoop配置參數(shù)優(yōu)化方法,包括有下列步驟:
第一步:配置Hadoop系統(tǒng)的工作負載集;
第二步:配置Hadoop系統(tǒng)的參數(shù)集;
第三步:配置參數(shù)取值類型和范圍;
第四步:配置硬件環(huán)境;
其特征在于:還包括有下列步驟:
第五步:依據(jù)配置參數(shù)運行Hadoop的系統(tǒng);
根據(jù)第一步至第四步設置的系統(tǒng)配置參數(shù)取值范圍,首先為Hadoop系統(tǒng)集群選擇任意一參數(shù)配置組合confM,然后選擇工作負載集中的任意一次應用appi,最后運行Hadoop的系統(tǒng),記錄下應用樣本記錄為第M次組合的第一次運行的樣本記錄,為第M次組合的第二次運行的樣本記錄,為第M次組合的第i次運行的樣本記錄;M為不同配置參數(shù)的組合的次數(shù);i為運行次數(shù);
第六步:構建樣本輸入矩陣;
將第五步采集到的應用樣本記錄組織成樣本輸入矩陣S,所述輸入矩陣S中的每一行為選擇的配置參數(shù),每一列為應用appi的運行樣本;
第七步:聚類分析得到聚類特征;
對第六步得到的樣本輸入矩陣S進行聚類分析,根據(jù)應用appi的運行行為特征將其劃分到不同的特征分類clusteri中;
第八步:主成分分析
針對第七步計算出的聚類特征clusteri中的應用appi,通過主成分分析篩選出其中對應用性能影響顯著的配置參數(shù)A_para;
第九步:構建應用性能預測模型MD
根據(jù)第八步篩選出的對應用性能影響顯著的配置參數(shù)A_para,首先從應用運行樣本輸入矩陣S中提取出與關鍵配置參數(shù)相對應的樣本輸入子矩陣Ssub;然后利用支持向量回歸算法計算應用性能預測模型MD。
2.根據(jù)權利要求1所述的一種基于統(tǒng)計分析的Hadoop配置參數(shù)優(yōu)化方法,其特征在于:在第八步的主成分分析過程中,針對聚類中應用的運行樣本矩陣,進行主成分分析計算,得到任意一主成分PCi;從所述PCi中選取出方差累積貢獻率Contribution到達85%的主成分,即形成保留主成分R_PCk,k為保留的主成分的個數(shù);然而,對于每一個保留主成分R_PCk,選擇排名前三的配置參數(shù),記為對應用性能影響顯著的配置參數(shù)A_para。
3.根據(jù)權利要求1所述的一種基于統(tǒng)計分析的Hadoop配置參數(shù)優(yōu)化方法,其特征在于:在第七步的聚類處理過程中,聚類計算過程采用層次型聚類中的最近鄰算法,即兩個聚類間的距離由聚類中距離最近點的距離確定。
4.根據(jù)權利要求3所述的一種基于統(tǒng)計分析的Hadoop配置參數(shù)優(yōu)化方法,其特征在于:當不同應用的連接距離小于5時,認為應用的運行行為上具有較強的相似性,則被劃分到同一個聚類里。
5.根據(jù)權利要求1所述的一種基于統(tǒng)計分析的Hadoop配置參數(shù)優(yōu)化方法,其特征在于:樣本輸入矩陣S的形式表達為
6.根據(jù)權利要求1所述的一種基于統(tǒng)計分析的Hadoop配置參數(shù)優(yōu)化方法,其特征在于:在第一步的工作負載集的配置中,所述工作負載集由8個不同的應用組成,按照其所代表的應用領域又分為4類,分別是微工作負載、HDFS工作負載、網(wǎng)頁檢索和機器學習。
7.根據(jù)權利要求1所述的一種基于統(tǒng)計分析的Hadoop配置參數(shù)優(yōu)化方法,其特征在于:在第二步的參數(shù)集的配置中,所述參數(shù)集可以分為工作負載和系統(tǒng)配置兩大類,同時工作負載根據(jù)其執(zhí)行的不同階段,又可以細分為Map階段、Reduce階段和整體階段三部分。
8.根據(jù)權利要求1所述的一種基于統(tǒng)計分析的Hadoop配置參數(shù)優(yōu)化方法,其特征在于:在第三步的參數(shù)取值和范圍選取中,參數(shù)取值類型包括整數(shù)、布爾型、字符串和百分比,參數(shù)的取值范圍包括離散型和連續(xù)型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經(jīng)北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510096561.0/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)管數(shù)據(jù)統(tǒng)計分析指標的處理方法和裝置、數(shù)據(jù)管理系統(tǒng)
- 一種數(shù)據(jù)統(tǒng)計方法及裝置
- 一種用APP形式提供服務的方法和系統(tǒng)
- 一種海量日志統(tǒng)計分析系統(tǒng)和方法
- 數(shù)據(jù)統(tǒng)計分析方法和裝置
- 一種分布式光伏電源的統(tǒng)計分析方法
- 流量分析方法及裝置
- 基于自然語言處理的自助式查詢統(tǒng)計分析方法
- 一種具有統(tǒng)計分析功能的醫(yī)療數(shù)據(jù)庫
- 一種用于稱重傳感器智能制造的數(shù)據(jù)采集系統(tǒng)及其裝置
- 一種實現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計算的Hadoop平臺度量方法
- 云環(huán)境中模型驅(qū)動的Hadoop部署方法
- 基于麒麟云計算平臺的Hadoop集群自動化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲、查詢的方法、裝置、系統(tǒng)、設備、存儲介質(zhì)
- 一種文件型門衛(wèi)式存儲加密功能的Hadoop系統(tǒng)及其應用方法





