[發明專利]一種基于深度強化學習的Spark參數自動優化方法及系統有效

申請號：	202010501737.7	申請日：	2020-06-04
公開（公告）號：	CN111651220B	公開（公告）日：	2023-08-18
發明（設計）人：	杜海舟;韓平;張少華;張可可;錢金谷	申請（專利權）人：	上海電力大學
主分類號：	G06F9/445	分類號：	G06F9/445;G06F11/30;G06F11/34;G06F18/2113;G06F18/2135;G06F18/23;G06N3/092
代理公司：	南京禹為知識產權代理事務所(特殊普通合伙) 32272	代理人：	朱寶慶
地址：	200090 ***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于深度強化學習 spark 參數自動優化方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于深度強化學習的Spark參數自動優化方法及系統，包括，采集Spark運行的原始數據并進行數據預處理；利用PCA+Lasso結合策略對預處理后的數據進行特征過濾和選擇，計算特征參數權重得到關鍵參數；利用關鍵參數構建基于深度Q網絡的參數自動優化模型；對參數自動優化模型進行訓練并輸出調優結果，得到當前環境下的最優參數配置組合以調控Spark作業運行。本發明通過參數優化策略能夠有效地處理Spark平臺的參數在線優化問題，優化后的參數配置可以大幅度的提升作業性能，且效果隨著作業規模的增加而更加顯著，能夠有效解決類似大數據平臺的參數優化問題，利用Lasso特征選擇策略自動選擇關鍵的配置參數，在剔除無用參數的同時提升工作效率。

技術領域

本發明涉及大數據技術領域，尤其涉及一種基于深度強化學習的Spark參數自動化優化方法及系統。

背景技術

隨著大數據時代海量數據的增長，傳統計算模型已經逐漸無法滿足性能和效率等各方面要求，從而涌現出一批出色的大數據分析與處理平臺，Spark是其中典型代表。然而，Spark在性能問題上存在一些短板，其作業運行環境會受多方面因素影響，包括底層硬件、體系結構、操作系統、多樣化的程序等。這些復雜的因素讓提升性能變得非常艱難，很多時候用戶因為不了解Spark的執行機制而無法突破性能優化問題的瓶頸。參數優化是Spark性能優化的一個重要分支。相關參數的設置會直接影響Spark的作業性能，合理地調整參數有助于開發高性能計算，但這是有難度的。

Spark的執行引擎已經發展成為一個具有多個可配置參數且高效復雜的系統，并且參數的影響可能因應用程序或集群等因素而異。此外，用戶可以根據特定的應用需求來調整參數。另外Spark平臺的參數之間不是獨立的，一個參數的變化可能會對其他參數的取值造成影響，這也給自動識別適用于廣泛應用的最佳參數配置帶來了挑戰。

發明內容

本部分的目的在于概述本發明的實施例的一些方面以及簡要介紹一些較佳實施例。在本部分以及本申請的說明書摘要和發明名稱中可能會做些簡化或省略以避免使本部分、說明書摘要和發明名稱的目的模糊，而這種簡化或省略不能用于限制本發明的范圍。

鑒于上述現有存在的問題，提出了本發明。

因此，本發明解決的技術問題是：無法合理有效地提高Spark作業性能。

為解決上述技術問題，本發明提供如下技術方案：包括，采集Spark運行的原始數據并進行數據預處理；利用PCA+Lasso結合策略對預處理后的所述數據進行特征過濾和選擇，計算特征參數權重得到關鍵參數；利用所述關鍵參數構建基于深度Q網絡的參數自動優化模型；對所述參數自動優化模型進行訓練并輸出調優結果，得到當前環境下的最優參數配置組合以調控所述Spark作業運行。

作為本發明所述的一種基于深度強化學習的Spark參數自動化優化方法的一種優選方案，其中：構建所述參數自動優化模型包括，利用所述關鍵參數構建基于DQN的所述參數自動優化模型；收集所述Spark作業運行的日志獲取參數信息，結合Spark集群環境確定所需調優的參數及其取值范圍，將非數值型參數轉換為數值型參數；將所述數值型參數的各個取值轉換為深度強化學習中的狀態空間，對每個所述狀態設定增大、減小、不變三種動作；依次選取所述動作開始執行作業，作業完成后獲得相應的獎勵；提取所述參數自動優化模型停止時的參數狀態和動作情況，獲得對應的所述最優參數配置。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海電力大學，未經上海電力大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010501737.7/2.html，轉載請聲明來源鉆瓜專利網。