[發明專利]一種批量流式計算系統參數動態配置方法有效
| 申請號: | 201910050828.0 | 申請日: | 2019-01-20 |
| 公開(公告)號: | CN109828836B | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 梁毅;曾紹康;蘇醒;于澤群;梁巖德;伍佳名;丁治明 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F9/50;G06F9/455 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 批量 計算 系統 參數 動態 配置 方法 | ||
1.一種批量流式計算系統參數動態配置方法,其特征在于:主要分為六個步驟:核心參數選取、樣本收集、模型構建、最優方案生成、在線匹配和參數優化;其中,核心參數選取在應用運行之前模擬測試;樣本收集、模型構建和最優方案生成步驟在后臺階段完成;在線匹配和參數優化步驟于在線階段完成;做如下假設:1)外部數據源的數據到達符合泊松分布;2)網絡帶寬足夠,設收集樣本的批次數的閾值Nbmax、預測函數擬合次數閾值Ctmax、種群中個體數閾值Npmax、進化次數閾值Cpmax、樣本收集周期t;具體為:
(1)核心參數選取
選取對批量流式計算系統性能影響較大的參數集合;
1.1)令核心參數集合為PC,初始化在批量流式計算系統的所有參數中篩選得到備選參數集合PA,PA={pai|1≤i≤n};
1.2)選取低、中、高三種數據到達速率,分別表示為λl、λmid、λh,對于每一個pai∈PA,執行步驟1.2.1)~1.2.4);
1.2.1)在pai取值范圍內隨機選取k個值,表示為V={vj|1≤j≤k},其余參數在缺省的情況下,分別在數據到達速率為λl、λmid、λh下,依次選取V中的數值vj進行k次流式應用模擬實驗,獲取相應的數據處理響應延遲集合LL={llj|1≤j≤k}、LM={lmj|1≤j≤k}、LH={lhj|1≤j≤k};
1.2.2)利用公式(1)~(3),分別計算λl、λmid、λh三種數據到達速率下,pai與批量流式計算系統性能的皮爾森相關系數rl、rmid、rh;
1.2.3)利用公式(4)計算pai的平均皮爾森相關系數
1.2.4)若且顯著性檢驗的p值小于0.05,則設置PC←PC∪{pai};
(2)樣本收集
2.1)依據步驟(1)選取的核心參數集合PC={pci|1≤i≤N},令樣本表S表示為S={sm|sm=(λm,v1m,v2m,...,vNm,tcm),tcm=lm-tbm,1≤m≤D},其中,m為樣本數據編號,D為樣本數據總數,λm為第m個樣本的數據到達速率,v1m,v2m,...,vNm為第m個樣本對應核心參數pc1,pc2,...pcN的值,tcm為第m個樣本的數據計算時間,是由數據處理響應延遲lm減去批次劃分間隔tbm得到的;
2.2)令Nb為批量流式計算系統當前收集樣本的批次數,設置Nb=0;
2.3)從批量流式計算系統既有組件采集流式應用當前批次的數據到達速率、核心參數pc1,pc2,...pcN的值、數據處理響應延遲和批次劃分間隔,分別表示為λ′、v1′,v2′,...,vN′、l′、tb′;
2.4)遍歷樣本表S,若滿足λm=λ′,v1m,v2m,...,vNm=v1′,v2′,...,vN′,則利用公式(5)求取兩個樣本數據計算時間的均值并設置否則,設置S←S∪{(λ′,v1′,v2′,...,vN′,l′-tb′)};
2.5)Nb←Nb+1,若Nb=Nbmax,則執行步驟(3);否則,執行步驟2.3);其中,Nbmax為批量流式計算系統收集樣本的批次數的閾值;
(3)模型構建
3.1)定義訓練樣本集T,初始化定義測試樣本集F,初始化對每一個sm∈S中的λm、v1m,v2m,...,vNm作Z-score標準化處理,處理后得到的數值構成新的元組(λzm,vz1m,vz2m,...,vzNm);對于每一個元組(λzm,vz1m,vz2m,...,vzNm),在(0,10]內隨機生成正整數r,若r≤8,設置T←T∪{(λzm,vz1m,vz2m,...,vzNm),tcm};否則,設置F←F∪{(λm,v1m,v2m,...,vNm),tcm};
3.2)構建的性能模型表示為f:(λ,pc1,pc2,...pcN)→tc,對T中樣本(x1,y1),(x2,y2),...,(x|T|,y|T|),xi=(λzi,vz1i,vz2i,...,vzNi)(1≤i≤|T|),yi=tci(1≤i≤|T|),設回歸函數為式(6);其中,w和b是待確定的參數,φ(x)表示一個非線性變換,令Ct為性能模型當前訓練次數,設置Ct←0;
f(x)=wTφ(x)+b (6)
3.3)利用支持向量回歸方法解決回歸預測問題,等價于求解式(7),
其中,C為大于0的常數,ξi、ξi*為松弛變量;利用拉格朗日函數和對偶原理,可以得到式(8)的對偶問題,
其中,Qi,j=φT(xi)φ(xj),I=[1,...,1]T,α、α*為拉格朗日乘子;求解此二次型規劃可求得α的值,同時求得
利用KKT(Karush-Kuhn-Tucker)條件計算出常值偏差b,即
根據上述推導可得回歸函數f(x)的表達式為式(11),
其中,K(x,xi)=φT(x)φ(xi)為一個核函數;利用式(12)徑向基函數核函數實現;
K(xi,xj)=exp(-γ||xi-xj||2),γ>0 (12)
3.4)對F中樣本,(x1,y1),(x2,y2),...,(x|F|,y|F|),xl=(λl,v1l,v2l,...,vNl)(1≤l≤|F|),yl=tcl(1≤l≤|F|),利用公式(13)計算平均誤差
3.5)若則模型構建成功,執行步驟4.1);否則,執行步驟3.7);
3.6)Ct←Ct+1,若Ct>Ctmax,則構建失敗,執行步驟(7);否則,執行步驟3.7);其中,Ctmax為預測函數擬合次數閾值;
3.7)調整核函數參數γ,設置f(x)中γ←0.9γ,執行步驟3.4);
(4)最優方案生成
4.1)令性能預測表為R,初始化令最優參數配置方案表為B,初始化
4.2)令流式應用的數據到達速率最小值為λl,最大值為λh,選取速率步長為stepλ,則選取的離散化數據到達速率集合如式(14);
4.3)對核心參數集合PC={pci|1≤i≤N}中每一個pci,令參數取值范圍為[dli,dhi],選取步長stepi,則選取的核心參數pci的離散化取值集合如式(15);
4.4)對于每一個λi∈Λ,遍歷所有的核心參數取值的組合形如d1,d2,...,dN(di∈Di),利用步驟(3)構建的性能模型求取在該核心參數設置下的數據處理時間設置
4.5)給定數據到達速率,生成最優參數配置方案的目標函數可被定義如公式(16);其中約束條件定義為處理響應延遲限制,tb為批次劃分間隔;
min(tb+tc)
s.t.tc≤tb≤1.2tc (16)
4.6)利用遺傳算法,對于每一個選取的數據到達速率離散值λi∈Λ;
(5)在線匹配
5.1)定義參數配置方案為C,初始化
5.2)當批量流式計算應用的一個批次結束后,從既有組件采集數據到達速率λc;
5.3)令λc除以stepλ向下取整的值為v,令u=λc%stepλ,其中stepλ為數據到達速率選取步長;利用公式(19),將λc映射到離散值λd;
5.4)若bi=(λi,b1i,b2i,...,bNi)滿足λi=λd,C←(b1i,b2i,...,bNi);否則,執行步驟(7);
(6)參數優化
6.1)依據參數配置方案C=(b1i,b2i,...,bNi),對元組中每一個bni(1≤n≤N),從批量流式系統相應組件中更新核心參數pcn的值為bni;
(7)回溯:判斷應用程序是否結束,是則跳轉至步驟(8);否則判斷是否時間達到樣本收集周期t,是則跳轉至步驟2.2),否則跳轉至步驟(5);
(8)結束:中止對批量流式系統的參數動態配置。
2.如權利要求1所述批量流式計算系統參數動態配置方法,其特征在于:4.6)具體為:
4.6.1)定義種群個體pk=(g1k,g2k,...,gNk),其中gik表示為一個基因,則每個個體即一條染色體共有N個基因,定義種群集合P,初始化定義當前種群中個體數Np,初始化Np←0,定義當前進化次數Cp,初始化Cp←0;
4.6.2)若滿足λm=λi,編碼d1m,d2m,...,dNm為染色體ch=(d1m,d2m,...,dNm),設置P←P∪{ch};
4.6.3)Np←Np+1,若Np=Npmax,則初始化種群結束,執行步驟4.6.4);否則,繼續添加個體,執行步驟4.6.2);其中,Npmax為初始種群中個體數閾值;
4.6.4)對于每一個pk∈P,遍歷性能預測表R,若滿足d1m=g1k,d2m=g2k,...,dNm=gNk,定義利用公式(17),計算該個體的適應度;
4.6.5)定義備選父母集合為PT,初始化對P按個體適應度由大到小排列,選取適應度排名前50%的個體組成P′,設置PT←P′,P←P-P′;
4.6.6)在PT中隨機選擇兩個個體ft、mt作為父母,于[1,N]內隨機生成正整數c,然后選取ft中基因下標1至c的基因,在mt中自下標c+1開始從左至右選取所有的基因,將其組合為子代sn的基因,sn表示為式(18),其中,sgi為sn第i位基因,fgi為ft第i位基因,mgi為mt第i位基因;
sn=(sg1,sg2,...,sgN)
4.6.7)在[1,N]內隨機生成正整數t,再于[1,100]內隨機生成正整數pm,若pm≤15,則對于sn的基因sgt,將其替換為相應參數合理取值范圍的任意值μ,即設置sgt←μ;
4.6.8)P←P∪{sn},若|P|=Npmax,執行步驟4.6.9);否則,執行步驟4.6.6);
4.6.9)Cp←Cp+1,若Cp=Cpmax,執行步驟4.6.10);否則,執行步驟4.6.5);其中,Cpmax為進化次數閾值;
4.6.10)定義best為P中適應度最大的個體,設置B←B∪{(λi,best)}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910050828.0/1.html,轉載請聲明來源鉆瓜專利網。





