[發明專利]一種基于海量日志的數據中心任務干擾預測方法在審
| 申請號: | 202110036506.8 | 申請日: | 2021-01-12 |
| 公開(公告)號: | CN112667591A | 公開(公告)日: | 2021-04-16 |
| 發明(設計)人: | 梁毅;梁巖德;于澤群 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/906;G06N3/08;G06F9/50 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 海量 日志 數據中心 任務 干擾 預測 方法 | ||
1.一種基于海量日志的數據中心任務干擾預測方法,其特征在于:由五個步驟組成:初始化、日志任務分類、任務干擾分布矩陣構建、任務干擾預測模型構建、任務干擾預測;
方差分析的屬性選擇邊界標準差std,聚類方法的核心對象數量minp,聚類方法的鄰域半徑α,卷積神經網絡的學習率step,正則化系數λ,卷積神經網絡的訓練批尺寸b,卷積神經網絡的訓練次數β;std取1.5,minp取10,α取2.5,step取0.01,λ取0.03,b取8,β取50;
執行本方法前,將所需日志數據讀入并轉化為可處理的形式;
(1)初始化:
使用日志中的任務信息來進行數據的初始化,令日志中包含的屬性全集為A={a1,a1…aF},與任務相關的屬性子集為T={t1,t2…tS},日志中包含的負載集合為W={w1,w2…wZ};W中的第i個負載wi由多個任務集組成,可表示為wi={WTi1,WTi2…WTiH},每一個任務集由多個執行邏輯相同的并行任務組成,第j個任務集可表示為WTij={wtij1,wtij2…wtijV,},1≤i≤Z,1≤j≤H,任務的執行時間集合Timeij={timeij1,timeij2…timeijV},其中timeijo為第o個任務wtijo的執行時間,1≤o≤V,Timeij中最短執行時間記為MinTimeij,定義interijo=timeijo/MinTimeij,1≤o≤V,代表任務wtijo的受干擾程度;
(2)日志任務分類:
2.1)遍歷任務相關的屬性子集T,選取任務的干擾特征屬性,構建任務的干擾特征屬性集合;
2.1.1)從資源使用特征,執行時間,資源申請規模,任務優先級四個方面選取可表示任務受干擾程度的屬性子集S={s1,s1,...sN};
2.1.2)對日志中每一個任務集WTij,1≤i≤Z,1≤j≤H,計算其與任務干擾強相關的屬性集WT_Sij;計算方法如下,遍歷S中的每一個屬性,記第u個屬性為su,1≤u≤N,通過標準差分析,判斷su在不同的混合運行環境下的穩定性;定義WTij在屬性su上的標準差為qiju,使用公式(1)計算qiju,其中,vijou表示在WTij中第o個實例在屬性su上的取值,為WTij中所有vijou的平均值,1≤o≤V;若qiju大于std,說明該屬性在不同環境下有明顯波動,能夠表現一定的干擾情況,故選擇該屬性,否則放棄選擇該屬性;
2.1.3)對于所有WT_Sij集合取交集,得到能夠代表任務間干擾特征屬性共性的屬性集合C={c1,c2…cB};
2.2)對于C={c1,c2…cB},定義權重列向量P=[p1,p2…pB]T,為每一個屬性賦予權重;
2.3)基于DBSCAN聚類方法,對于任務集合進行分類;
2.3.1)對日志中的所有任務wtijo,1≤i≤Z,1≤j≤H,1≤o≤V使用DBSCAN聚類算法進行分類,選取wtijo在干擾屬性集合C上相對應的特征值列向量Gijo=[Gijo1,Gijo2…GijoB]T作為聚類所需的特征值,使用權重列向量P作為Gijo中特征值的權重,定義任務類別總集合Type,初始化定義存放待篩選任務的候選集合N,初始化對于所有wtijo初始化其訪問標簽visitedijo為false,設置聚類核心對象數量為minp,鄰域半徑為α,α鄰域代表著與任務wtijo距離小于α的所有任務所在的域,按照公式(2)計算兩個任務wtijo與wti′j′o′間的距離,其中,wti′j′o′為日志中另外一個任務,滿足1≤i′≤Z,1≤j′≤H,1≤o′≤V.
2.3.2)選擇一個visitedijo標簽為false的任務wtijo,并檢查wtijo的α鄰域是否至少包含minp個對象;如果不是,則wtijo被標記為噪聲點,否則為wtijo創建一個新的任務類集合WTypeu,初始化將wtijo添加到N中;
2.3.3)對于N中的任務wtijo′,若wtijo′的visitedijo為false,則將其標記為true,并檢查wtijo′的α鄰域,如果wtijo′的α鄰域中至少包含minp個任務,則將其α鄰域中所有的任務都添加到N中,并將wtijo′添加到WTypeu中,最后將wtijo′從N中刪除,若wtijo′的visitedijo為true,則直接將wtijo′從N中刪除;
2.3.4)重復步驟2.3.3)直到N為空,將聚類完成的WTypeu添加到Type中;
2.3.5)重復步驟2.3.2)~2.3.4),直到所有任務都被訪問;得到任務的總聚類數E=|Type|;
(3)任務干擾分布矩陣構建:
3.1)對于任意任務wtijo,1≤i≤Z,1≤j≤H,1≤o≤V,定義其任務干擾分布矩陣Mijo形式如下:
矩陣的行數為L,列數為Y,矩陣任意元素mua,1≤u≤L,1≤a≤Y,表示在任務運行的第u個單位時間內,與該任務混合運行的第a類任務的數量,其中以一秒作為一個單位時間;該矩陣的列數Y為日志中的任務類型總數E,每一列j對應一個不同的任務類WTypea;該矩陣的行數L為日志中該任務所屬任務類中所有任務的最大運行時間的秒數;
3.2)對于每一個wtijo,根據wtijo所屬任務類的任務最長運行時間秒數以及任務類型總數E初始化創建任務wtijo的干擾分布矩陣Miio;對于Mijo的每一個元素mua,若在任務執行的第u秒,存在并行的a類任務,則設置mua為任務執行到第u秒時并行的a類任務的數量,若不存在并行的a類任務,則設置mua為0;
(4)任務干擾預測模型構建:
4.1)使用由三層卷積層和三層全連接層組成的卷積神經網絡CNN模型作為干擾預測模型的設計結構,模型的輸入是大小為L×Y的任務干擾分布矩陣,輸出為任務在該并行情況下的受干擾程度,設置卷積神經網絡的學習率為step,訓練的批尺寸為b;卷積層的卷積核尺寸為3x3的卷積核,卷積步長為2,卷積層的輸出通道數分別為{4,8,16},全連接層由輸入層,隱藏層,輸出層組成,輸入層的神經元數量Neu為卷積層輸出的特征值數量,隱藏層的神經元數量是Neu/2,輸出層接受前兩層的參數輸出干擾預測值;對于一個批尺寸大小為b的輸入批中所有樣本輸入x和樣本標簽y訓練時的損失值計算,選擇公式3的交叉熵函數J作為損失值計算函數,其中fl=5為CNN網絡的層數,x(j),y(j)為輸入批中的第j個樣本輸入和樣本標簽,1≤j≤b,f(x(j))為卷積網絡預測的結果值,Weight={we1,we2…wefl}為卷積神經網絡的參數矩陣集合,||wek||2代表Weight中第k個參數矩陣的L2正則化,其含義是wek參數矩陣中每一個參數的平方和,1≤k≤fl,λ為正則化系數;每一個參數矩陣wek中的第o個參數weko的參數優化方法選擇公式4的隨機梯度優化算法,其中代表參數weko對應的梯度,step為卷積神經網絡的學習率,weko′代表更新后的梯度;
4.2)為每一類任務集WTypeu,構建相對應的卷積神經網絡干擾預測模型CNNu,其中u代表第u類任務,1≤u≤E,E代表任務類總數;
4.2.1)訓練構建好的卷積神經網絡CNNu,將該類所有任務wtijo作為樣本數據,其中wtijo代表日志中第i個負載中第j個任務集的第個o任務,每次訓練輸入b個樣本,wtijo的干擾分布矩陣Mijo和受干擾程度interijo作為模型的輸入值和標簽值,通過前向傳播算法和隨機梯度優化算法更新模型參數進行訓練,重復輸入直到該類任務全部訓練完畢;
4.3)重復4.2.1)的過程β次,對模型進行多輪參數更新,在參數更新結束后該類任務訓練完成,完成對應的卷積神經網絡的構建;
4.4)重復步驟4.2)~4.3),對所有任務類wtypeu都訓練相對應的卷積神經網絡CNNu;
(5)任務干擾預測:
5.1)對于任意任務wtijo,輸入其任務類別wtypeu以及需要預測的干擾矩陣Mijo,使用wtypeu對應的卷積神經網絡模型CNNu進行預測,輸出預測出的干擾程度interijo,即wtypeu類型的任務在Mijo并行情況下受到的干擾;
5.2)改變輸入的任務類別,使用該類別任務對應的卷積神經網絡模型作為干擾預測模型,重復步驟5.1),得到任務集合中所有任務的受干擾情況。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110036506.8/1.html,轉載請聲明來源鉆瓜專利網。





