[發明專利]一種基于深度強化學習的Spark參數自動優化方法及系統有效
| 申請號: | 202010501737.7 | 申請日: | 2020-06-04 |
| 公開(公告)號: | CN111651220B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 杜海舟;韓平;張少華;張可可;錢金谷 | 申請(專利權)人: | 上海電力大學 |
| 主分類號: | G06F9/445 | 分類號: | G06F9/445;G06F11/30;G06F11/34;G06F18/2113;G06F18/2135;G06F18/23;G06N3/092 |
| 代理公司: | 南京禹為知識產權代理事務所(特殊普通合伙) 32272 | 代理人: | 朱寶慶 |
| 地址: | 200090 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 spark 參數 自動 優化 方法 系統 | ||
1.一種基于深度強化學習的Spark參數自動優化方法,其特征在于:包括采集Spark運行的原始數據并進行數據預處理;
利用PCA+Lasso結合策略對預處理后的所述數據進行特征過濾和選擇,計算特征參數權重得到關鍵參數;
利用所述關鍵參數構建基于深度Q網絡的參數自動優化模型;
對所述參數自動優化模型進行訓練并輸出調優結果,得到當前環境下的最優參數配置組合以調控所述Spark作業運行;
構建所述參數自動優化模型包括,
利用所述關鍵參數構建基于DQN的所述參數自動優化模型;收集所述Spark作業運行的日志獲取參數信息,結合Spark集群環境確定所需調優的參數及其取值范圍,將非數值型參數轉換為數值型參數;
將所述數值型參數的各個取值轉換為深度強化學習中的狀態空間,對每個所述狀態設定增大、減小、不變三種動作;
依次選取所述動作開始執行作業,作業完成后獲得相應的獎勵;
提取所述參數自動優化模型停止時的參數狀態和動作情況,獲得對應的所述最優參數配置;
訓練所述參數自動優化模型包括,
接收所述原始參數確定參數取值范圍,對參數數據進行預處理;
將所述參數的各個取值轉換為對應的狀態,定義狀態轉換的步長為1,且僅允許相鄰的狀態之間進行轉換;
從每個所述狀態開始,隨機選取一個所述動作開始執行所述作業;
直至所述作業運行全部結束后,得到其相對于默認參數配置的作業完成時間變化情況,根據所述變化情況獲得獎勵;
重新調整所述動作得到新的所述參數配置,再次執行作業記錄獎勵變化情況,直到所得獎勵值滿足最大累積獎勵公式;
當所述參數自動優化模型穩定或停止時,所述狀態和所述動作則不會再發生變化,訓練完成,輸出所述參數自動優化模型。
2.如權利要求1所述的一種基于深度強化學習的Spark參數自動優化方法,其特征在于:所述參數設置包括,
學習率0.01、折扣因子0.9、記憶池D500和概率e0.9;
每隔300步替換一次目標網絡的所述參數,且從所述記憶池D批量隨機選擇的樣本數量為32。
3.如權利要求2所述的一種基于深度強化學習的Spark參數自動優化方法,其特征在于:獲得所述關鍵參數包括,
基于聚類策略利用所述PCA刪除所述數據中的無關特征參數;結合所述Lasso計算過濾后的所有相關特征參數的權重;依次比對計算后的所述權重,判斷所述相關特征參數對所述Spark平臺作業運行性能的影響;
所述權重越大則影響越大,定義與所述權重前10相對應的所述相關特征參數作為所述關鍵參數。
4.如權利要求3所述的一種基于深度強化學習的Spark參數自動優化方法,其特征在于:計算所述權重,具體包括,
在所述Lasso中設置高懲罰因子并結合損失函數計算,使得全部的所述權重均為零基于所述原始數據中的歷史數據構建一組自變量和因變量,其中,所述自變量是所述Spark平臺的參數,所述因變量是所述參數對應的作業完成時間;
控制所述自變量的增量減小懲罰強度以區分非零權重和零權重,并根據數值大小進行排序。
5.如權利要求4所述的一種基于深度強化學習的Spark參數自動優化方法,其特征在于:預處理所述原始數據包括,利用One-Hot編碼策略將所述原始數據中的參數數據轉換為統一的虛擬變量;標準化所述虛擬變量,減去其平均值并除以標準差,使得所述參數的不同配置值由數學數值替代,形成所述數值型參數。
6.如權利要求1或5所述的一種基于深度強化學習的Spark參數自動優化方法,其特征在于:采集所述原始數據包括,
在所述Spark平臺上運行不同類型的作業,獲取不同參數配置下的作業完成時間,整理得到原始參數數據信息;
利用所述原始參數數據信息分析歸納所述Spark平臺的所有可配置參數,篩除對作業性能無關的參數;
結合參數調優準則初步確定一組對所述Spark作業性能有影響的參數候選子集;
所述參數候選子集中的參數對性能的影響大于不在子集中的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海電力大學,未經上海電力大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010501737.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種調度方法、裝置及電子設備
- 下一篇:一種LED屏平移搖擺裝置





