[發明專利]一種基于多任務學習時間序列的云平臺工作負載預測方法有效
| 申請號: | 202011396557.3 | 申請日: | 2020-12-03 |
| 公開(公告)號: | CN112486687B | 公開(公告)日: | 2022-09-27 |
| 發明(設計)人: | 王進;馬夢涵;李辰宇;徐其成;舒雅寧;彭浩;孫開偉;劉彬 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F11/30;G06N3/04;G06N3/08 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 任務 學習 時間 序列 平臺 工作 負載 預測 方法 | ||
1.一種基于多任務學習時間序列的云平臺工作負載預測方法,其特征在于,包括以下步驟:
獲取工作負載數據,并對獲取的數據進行預處理,工作負載數據至少包括隊列類型、隊列狀態、磁盤類型、CPU利用率、內存利用率、作業數;
采用滑動窗口的方法劃分數據,將當前時刻前24個小時劃分為144個時間間隔,并用其預測當前時刻之后10個時間間隔的平均工作負載;
對劃分的每個時間間隔的數據構建基礎特征、交叉特征、時序趨勢特征、用戶行為關聯特征,并采用二維SHAP進行特征選擇;其中用戶行為關聯特征的獲取過程包括:
對于Q個隊列,每個隊列對應R個用戶、每個用戶對應N個作業,其中,R在{1,2,3,…r}中取值,N在{1,2,3,…n}中取值;
對于處在不同隊列的同一用戶,在24小時內計算所有用戶在不同隊列的提交作業的時間間隔和申請的作業的總資源數量,求的每個用戶的平均負載資源利用率作為權重Wj,計算每個隊列每個用戶的貢獻值作為標簽,每個隊列的屬性作為特征,傳入LightGBM回歸模型中得到用戶在每個隊列的關聯度概率情況,將該關聯度概率作為用戶行為關聯特征;
每個隊列每個用戶的貢獻值表示為:
其中,Rj為第j個時刻的CPU利用率、內存利用率的線性加權;∈j為Rj的偏置;
將選擇的特征輸入傳入TCN-LSTM模型中,采用多任務學習的方式,共有三個任務,分別為:預測T時間段的CPU平均利用率、預測T時間段的正在運行的作業數、預測T時間段的平均內存利用率,T在{1,2,3,…t}中取值;多任務學習過程包括以下步驟:
將工作負載作為三元組w=Cd,t,Jd,t,Md,t,其中Cd,t表示d天t時段的CPU平均利用率,Jd,t表示d天t時段的正在運行的作業數,Md,t表示d天t時段的內存平均利用率;
在TCN-LSTM模型后接入三個全連接網絡預測三個任務,分別為Task A:預測d天T時間后的10個時間間隔的平均CPU利用率Cd,t,Cd,t+1,Cd,t+2,……Cd,t+9、Task B:預測d天T時間后的10個時間間隔的運行的作業數Jd,t,Jd,t+1,Jd,t+2,……Jd,t+9、Task C:預測d天T時間后的10個時間間隔的平均內存利用率Md,t,Md,t+1,Md,t+2,……Md,t+9;
采用復合函數標簽融合的方式依次計算10個時間間隔的工作負載情況,除了t時刻的輸出,其他每個時刻的輸出的隱藏層都為當前時刻的hidden和前一時刻狀態的運算拼接,對于t+1時刻LSTM的hidden,前一時刻的具體運算為:
ht+1=f1(f2(Wht+bi)+bj)+ht;
其中,f1為sigmoid函數,f2為傅里葉函數;W為t時刻隱藏層權重;ht為t時刻隱藏層的輸出;bi為ht的偏置;bj為f2(Wht+bi)的偏置。
2.根據權利要求1所述的一種基于多任務學習時間序列的云平臺工作負載預測方法,其特征在于,對獲取的數據進行預處理包括:
對缺失的CPU利用率和內存利用率采用24小時內的CPU利用率和內存利用率進行線性加權得到的結果進行填充;
剔除數據集中24小時內已完成的作業數與CPU利用率和內存利用率成反比的數據;
對于每24個小時的數據采用三支決策的方法,對正在運行的作業數進行歸一化操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011396557.3/1.html,轉載請聲明來源鉆瓜專利網。





