[發(fā)明專利]一種基于深度強(qiáng)化學(xué)習(xí)的Spark參數(shù)自動優(yōu)化方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010501737.7 | 申請日: | 2020-06-04 |
| 公開(公告)號: | CN111651220B | 公開(公告)日: | 2023-08-18 |
| 發(fā)明(設(shè)計)人: | 杜海舟;韓平;張少華;張可可;錢金谷 | 申請(專利權(quán))人: | 上海電力大學(xué) |
| 主分類號: | G06F9/445 | 分類號: | G06F9/445;G06F11/30;G06F11/34;G06F18/2113;G06F18/2135;G06F18/23;G06N3/092 |
| 代理公司: | 南京禹為知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 32272 | 代理人: | 朱寶慶 |
| 地址: | 200090 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強(qiáng)化 學(xué)習(xí) spark 參數(shù) 自動 優(yōu)化 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于深度強(qiáng)化學(xué)習(xí)的Spark參數(shù)自動優(yōu)化方法及系統(tǒng),包括,采集Spark運(yùn)行的原始數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理;利用PCA+Lasso結(jié)合策略對預(yù)處理后的數(shù)據(jù)進(jìn)行特征過濾和選擇,計算特征參數(shù)權(quán)重得到關(guān)鍵參數(shù);利用關(guān)鍵參數(shù)構(gòu)建基于深度Q網(wǎng)絡(luò)的參數(shù)自動優(yōu)化模型;對參數(shù)自動優(yōu)化模型進(jìn)行訓(xùn)練并輸出調(diào)優(yōu)結(jié)果,得到當(dāng)前環(huán)境下的最優(yōu)參數(shù)配置組合以調(diào)控Spark作業(yè)運(yùn)行。本發(fā)明通過參數(shù)優(yōu)化策略能夠有效地處理Spark平臺的參數(shù)在線優(yōu)化問題,優(yōu)化后的參數(shù)配置可以大幅度的提升作業(yè)性能,且效果隨著作業(yè)規(guī)模的增加而更加顯著,能夠有效解決類似大數(shù)據(jù)平臺的參數(shù)優(yōu)化問題,利用Lasso特征選擇策略自動選擇關(guān)鍵的配置參數(shù),在剔除無用參數(shù)的同時提升工作效率。
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域,尤其涉及一種基于深度強(qiáng)化學(xué)習(xí)的Spark參數(shù)自動化優(yōu)化方法及系統(tǒng)。
背景技術(shù)
隨著大數(shù)據(jù)時代海量數(shù)據(jù)的增長,傳統(tǒng)計算模型已經(jīng)逐漸無法滿足性能和效率等各方面要求,從而涌現(xiàn)出一批出色的大數(shù)據(jù)分析與處理平臺,Spark是其中典型代表。然而,Spark在性能問題上存在一些短板,其作業(yè)運(yùn)行環(huán)境會受多方面因素影響,包括底層硬件、體系結(jié)構(gòu)、操作系統(tǒng)、多樣化的程序等。這些復(fù)雜的因素讓提升性能變得非常艱難,很多時候用戶因為不了解Spark的執(zhí)行機(jī)制而無法突破性能優(yōu)化問題的瓶頸。參數(shù)優(yōu)化是Spark性能優(yōu)化的一個重要分支。相關(guān)參數(shù)的設(shè)置會直接影響Spark的作業(yè)性能,合理地調(diào)整參數(shù)有助于開發(fā)高性能計算,但這是有難度的。
Spark的執(zhí)行引擎已經(jīng)發(fā)展成為一個具有多個可配置參數(shù)且高效復(fù)雜的系統(tǒng),并且參數(shù)的影響可能因應(yīng)用程序或集群等因素而異。此外,用戶可以根據(jù)特定的應(yīng)用需求來調(diào)整參數(shù)。另外Spark平臺的參數(shù)之間不是獨(dú)立的,一個參數(shù)的變化可能會對其他參數(shù)的取值造成影響,這也給自動識別適用于廣泛應(yīng)用的最佳參數(shù)配置帶來了挑戰(zhàn)。
發(fā)明內(nèi)容
本部分的目的在于概述本發(fā)明的實施例的一些方面以及簡要介紹一些較佳實施例。在本部分以及本申請的說明書摘要和發(fā)明名稱中可能會做些簡化或省略以避免使本部分、說明書摘要和發(fā)明名稱的目的模糊,而這種簡化或省略不能用于限制本發(fā)明的范圍。
鑒于上述現(xiàn)有存在的問題,提出了本發(fā)明。
因此,本發(fā)明解決的技術(shù)問題是:無法合理有效地提高Spark作業(yè)性能。
為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:包括,采集Spark運(yùn)行的原始數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理;利用PCA+Lasso結(jié)合策略對預(yù)處理后的所述數(shù)據(jù)進(jìn)行特征過濾和選擇,計算特征參數(shù)權(quán)重得到關(guān)鍵參數(shù);利用所述關(guān)鍵參數(shù)構(gòu)建基于深度Q網(wǎng)絡(luò)的參數(shù)自動優(yōu)化模型;對所述參數(shù)自動優(yōu)化模型進(jìn)行訓(xùn)練并輸出調(diào)優(yōu)結(jié)果,得到當(dāng)前環(huán)境下的最優(yōu)參數(shù)配置組合以調(diào)控所述Spark作業(yè)運(yùn)行。
作為本發(fā)明所述的一種基于深度強(qiáng)化學(xué)習(xí)的Spark參數(shù)自動化優(yōu)化方法的一種優(yōu)選方案,其中:構(gòu)建所述參數(shù)自動優(yōu)化模型包括,利用所述關(guān)鍵參數(shù)構(gòu)建基于DQN的所述參數(shù)自動優(yōu)化模型;收集所述Spark作業(yè)運(yùn)行的日志獲取參數(shù)信息,結(jié)合Spark集群環(huán)境確定所需調(diào)優(yōu)的參數(shù)及其取值范圍,將非數(shù)值型參數(shù)轉(zhuǎn)換為數(shù)值型參數(shù);將所述數(shù)值型參數(shù)的各個取值轉(zhuǎn)換為深度強(qiáng)化學(xué)習(xí)中的狀態(tài)空間,對每個所述狀態(tài)設(shè)定增大、減小、不變?nèi)N動作;依次選取所述動作開始執(zhí)行作業(yè),作業(yè)完成后獲得相應(yīng)的獎勵;提取所述參數(shù)自動優(yōu)化模型停止時的參數(shù)狀態(tài)和動作情況,獲得對應(yīng)的所述最優(yōu)參數(shù)配置。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海電力大學(xué),未經(jīng)上海電力大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010501737.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





