[發(fā)明專利]基于瓶頸資源定位及參數(shù)調(diào)優(yōu)的大數(shù)據(jù)平臺測試方法在審
| 申請?zhí)枺?/td> | 202110692336.9 | 申請日: | 2021-06-22 |
| 公開(公告)號: | CN113495840A | 公開(公告)日: | 2021-10-12 |
| 發(fā)明(設(shè)計)人: | 李紅輝;張駿溫;王睿;楊秀杰;王文浩 | 申請(專利權(quán))人: | 北京交通大學(xué) |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06F11/30;G06F9/50 |
| 代理公司: | 北京市商泰律師事務(wù)所 11255 | 代理人: | 姜威 |
| 地址: | 100044 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 瓶頸 資源 定位 參數(shù) 數(shù)據(jù) 平臺 測試 方法 | ||
本發(fā)明提供了一種基于瓶頸資源定位及參數(shù)調(diào)優(yōu)的大數(shù)據(jù)平臺測試方法,包括:將開源工具與大數(shù)據(jù)平臺集成后對大數(shù)據(jù)平臺進(jìn)行資源的日常監(jiān)控;根據(jù)日常監(jiān)控資源計算各資源的信息增益率;根據(jù)所述信息增益率,基于改進(jìn)信息增益的瓶頸資源定位方法定位出導(dǎo)致大數(shù)據(jù)平臺出現(xiàn)性能瓶頸的瓶頸資源;根據(jù)定位的瓶頸資源,基于敏感度篩選出調(diào)優(yōu)參數(shù)集;利用自動化腳本對調(diào)優(yōu)參數(shù)集的參數(shù)進(jìn)行修改,得到最優(yōu)的參數(shù)配置。本方法可以及時定位導(dǎo)致大數(shù)據(jù)平臺出現(xiàn)性能瓶頸的資源,推薦出選定參數(shù)的最優(yōu)參數(shù)配置集合,達(dá)到自動化、全面化參數(shù)調(diào)優(yōu)的目標(biāo)。
技術(shù)領(lǐng)域
本發(fā)明涉及媒體通信技術(shù)領(lǐng)域,尤其涉及一種基于瓶頸資源定位及參數(shù)調(diào)優(yōu)的大數(shù)據(jù)平臺測試方法。
背景技術(shù)
隨著大數(shù)據(jù)的關(guān)注度越來越高,大數(shù)據(jù)平臺的測試工具和評測基準(zhǔn)吸引了學(xué)術(shù)界和工業(yè)界的廣泛研究,以Hadoop為例的大數(shù)據(jù)平臺自帶了一些測試基準(zhǔn)程序,主要包括用于測試HDFS性能的TestDFSIO、用于文本排序的TeraSort、用于測試MapReduce小型作業(yè)響應(yīng)能力的MRbench和用于統(tǒng)計單詞出現(xiàn)頻次的WordCount。這些基準(zhǔn)測試程序具有效率高和成本低的優(yōu)點,廣泛應(yīng)用于以Hadoop為測試對象的科研中。
目前Hadoop性能優(yōu)化工作大致分為四種:基于數(shù)據(jù)的優(yōu)化、基于作業(yè)調(diào)度策略的優(yōu)化、基于特定應(yīng)用的優(yōu)化和基于運(yùn)行環(huán)境配置參數(shù)的優(yōu)化。
基于數(shù)據(jù)的優(yōu)化是以數(shù)據(jù)塊為基本單位,通過改進(jìn)Hadoop大數(shù)據(jù)平臺中數(shù)量處理的模式提高數(shù)據(jù)處理效率,從而實現(xiàn)平臺的性能提升。現(xiàn)有技術(shù)中的相關(guān)方式主要包括:通過使用MapReduce編程模型完成小文件的合并,從而提高了Hadoop處理小文件的性能;針對現(xiàn)有的MapReduce框架在一個任務(wù)中主要在用一個map/reduce作業(yè)執(zhí)行數(shù)據(jù)處理,并不是直接支持?jǐn)?shù)據(jù)迭代應(yīng)用提出了一個Dacoop框架,其延伸了MapReduce編程接口對重復(fù)處理的數(shù)據(jù)進(jìn)行指定,引入基于共享內(nèi)存的數(shù)據(jù)緩存機(jī)制對數(shù)據(jù)進(jìn)行首次訪問后的緩存,并采用緩存感知的任務(wù)調(diào)度,使得緩存的數(shù)據(jù)能夠在數(shù)據(jù)迭代應(yīng)用的map/reduce作業(yè)之間共享,通過這種處理方式可以提升Hadoop在處理數(shù)據(jù)迭代應(yīng)用程序方面的性能。
基于作業(yè)調(diào)度策略的優(yōu)化是以任務(wù)為單位,通過改進(jìn)作業(yè)調(diào)度的策略提高作業(yè)處理的效率,提高大數(shù)據(jù)平臺的性能。Hadoop默認(rèn)任務(wù)調(diào)度模型的問題在于缺乏動態(tài)性和靈活性,現(xiàn)有技術(shù)中提出了一種以CPU占用率作為負(fù)載指標(biāo),在循環(huán)分配任務(wù)時根據(jù)反饋的負(fù)載指標(biāo)判斷節(jié)點負(fù)載情況的算法,從而動態(tài)適應(yīng)負(fù)載變化,該算法有效地提高了平臺的性能;還有文獻(xiàn)在分析Hadoop缺省及改進(jìn)作業(yè)調(diào)度算法基礎(chǔ)上,引入了吞食行為和跳躍行為改進(jìn)人工魚群算法改善了作業(yè)調(diào)度,在異構(gòu)環(huán)境下提高平臺的性能。
基于特定應(yīng)用的優(yōu)化是指通過修改系統(tǒng)代碼等優(yōu)化手段提升這一類應(yīng)用在Haoop平臺中的性能。從應(yīng)用程序著手,現(xiàn)有技術(shù)中提出了多個解決方法,進(jìn)行了MapReduce優(yōu)化算法、腳本/編譯語言的對比、小文件預(yù)處理等多個實驗,通過對優(yōu)化技術(shù)和實驗結(jié)果進(jìn)行分析得出了優(yōu)化應(yīng)用程序是提高大數(shù)據(jù)平臺性能的有效手段的結(jié)論。
上述前三個方法的缺陷在于需要的前置知識較多,工作量繁重,而且修改系統(tǒng)等方式使得源碼更加難以維護(hù),增加了系統(tǒng)的耦合度。基于運(yùn)行環(huán)境配置參數(shù)的優(yōu)化是通過一些方式對大數(shù)據(jù)平臺的相關(guān)配置參數(shù)進(jìn)行調(diào)整從而實現(xiàn)平臺的性能提升,相對于前三個方法,對參數(shù)的調(diào)優(yōu)是更為簡便和快速有效的。由于系統(tǒng)性能與大量配置參數(shù)直接相關(guān),這些參數(shù)控制系統(tǒng)執(zhí)行的各個方面,從低級內(nèi)存設(shè)置和線程數(shù)量到更高級別的決策,如資源管理和負(fù)載平衡。配置參數(shù)設(shè)置不當(dāng)會對整體系統(tǒng)性能和穩(wěn)定性產(chǎn)生不利影響。目前基于配置參數(shù)優(yōu)化的研究包括基于規(guī)則的方法、基于成本建模的方法、基于模擬的方法以及基于機(jī)器學(xué)習(xí)的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京交通大學(xué),未經(jīng)北京交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110692336.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





