[發(fā)明專利]一種基于歷史任務(wù)分析的Apache Spark應(yīng)用自動化調(diào)優(yōu)方法有效
| 申請?zhí)枺?/td> | 201810026098.6 | 申請日: | 2018-01-11 |
| 公開(公告)號: | CN108255689B | 公開(公告)日: | 2021-02-12 |
| 發(fā)明(設(shè)計)人: | 石勝飛;高宏;王宏志;巢澤敏 | 申請(專利權(quán))人: | 哈爾濱工業(yè)大學 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34 |
| 代理公司: | 哈爾濱市陽光惠遠知識產(chǎn)權(quán)代理有限公司 23211 | 代理人: | 孫莉莉 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 歷史 任務(wù) 分析 apache spark 應(yīng)用 自動化 方法 | ||
1.一種基于歷史任務(wù)分析的Apache Spark應(yīng)用自動化調(diào)優(yōu)方法,其特征在于:包括以下步驟:
步驟1、對Spark應(yīng)用的任務(wù)提交接口進行封裝,用戶直接將要運行的Spark應(yīng)用和默認的相關(guān)選項提交到用戶提交接口上;
步驟2、判斷是否已有該Spark應(yīng)用的分層灰盒時間預測模型;如有則執(zhí)行步驟3;如無則按原參數(shù)執(zhí)行,執(zhí)行步驟5;
步驟3、訪問數(shù)據(jù)庫,讀取并更新所述分層灰盒時間預測模型;
步驟4、用戶選擇是否進行優(yōu)化;如果進行優(yōu)化則生成優(yōu)化參數(shù),執(zhí)行步驟5;如果不進行優(yōu)化則按原參數(shù)執(zhí)行,執(zhí)行步驟5;
步驟5、調(diào)用shell命令運行任務(wù);
所述數(shù)據(jù)庫中數(shù)據(jù)是通過定時歷史數(shù)據(jù)采集器從Hadoop、Spark history server中獲取得到或通過日志文件采集和解析工具從HDFS中獲取得到;
所述數(shù)據(jù)庫中數(shù)據(jù)為應(yīng)用時配置參數(shù)和任務(wù)執(zhí)行時調(diào)度信息;
所述分層灰盒時間預測模型共兩層,通過選擇不同的機器學習算法對Stage運行時間進行預測的模塊構(gòu)成了分層灰盒時間預測模型的第一層,將每個Stage的執(zhí)行時間和整個應(yīng)用的總執(zhí)行時間之間的關(guān)系作為分層灰盒時間預測模型的第二層。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學,未經(jīng)哈爾濱工業(yè)大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810026098.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





