[發(fā)明專利]基于集成學習的分布式計算環(huán)境性能預測方法在審
| 申請?zhí)枺?/td> | 201410205434.5 | 申請日: | 2014-05-15 |
| 公開(公告)號: | CN104008426A | 公開(公告)日: | 2014-08-27 |
| 發(fā)明(設(shè)計)人: | 曹健;楊定裕;董樑;顧驊;沈琪駿;王烺 | 申請(專利權(quán))人: | 上海交通大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04 |
| 代理公司: | 上海漢聲知識產(chǎn)權(quán)代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 集成 學習 分布式 計算 環(huán)境 性能 預測 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計算機數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種基于集成學習的分布式計算環(huán)境性能預測方法。
背景技術(shù)
隨著計算機網(wǎng)絡(luò)的迅速發(fā)展,各種服務器越來越難以滿足用戶的需求。負載均衡集群的出現(xiàn),在一定程度上解決了這個問題。負載均衡算法作為影響負載均衡的三大要素之一,在很大程度上決定了負載均衡集群的性能。但由于當前的算法沒有考慮到服務器的當前和將來的負載情況,很難做到真正的負載均衡。
在分布式系統(tǒng)中,計算能力并不是獨占的,而是被多用戶的若干任務所共享,負載隨著任務的提交和結(jié)束而不斷變化,負載的預測會更加復雜。對于系統(tǒng)性能的預測主要集中在主機CPU負載的研究,這在國外開始于上世紀九十年代后期,其中以Peter?A.Dinda的研究最為系統(tǒng)。他從不同的機器集群,包括用于生產(chǎn)或研究的服務器組和工作站,收集了大量負載樣本,并對這些樣本進行細致的分析,提出了基于時間序列預測的預測理論。他建立了主機資源預測系統(tǒng)RPS,并把RPS應用于CMU?Remos資源管理系統(tǒng)和BBN?QuO分布式秒質(zhì)量服務系統(tǒng)。另外,Campos根據(jù)負載的變化率提出了進行動態(tài)負載預測的方法,Smith?W.and?Wong?P.提出利用任務的執(zhí)行時間和隊列等待時間進行負載預測,Wolski提出對分時UNIX系統(tǒng)的CPU利用率預測方法。
預測模型設(shè)置在預測器中,現(xiàn)在的大部分預測模型都不具備適應性,這意味著一旦開始預測,預測模型就是固定的。然而,如果預測的資源具有時變特性,這些模型將不能夠做出精確的預測。也就是說,他們都認為未來CPU負載是與歷史數(shù)據(jù)呈現(xiàn)相同的分布,但在分布式系統(tǒng)中這可能并不成立。另一方面,歷史數(shù)據(jù)可能不足以反映整個CPU負載的變化規(guī)律,這就導致基于歷史數(shù)據(jù)訓練的模型不能做出準確的預測。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足,提供了一種基于集成學習的分布式計算環(huán)境性能預測方法。本發(fā)明通過以下技術(shù)方案實現(xiàn):
一種基于集成學習的分布式計算環(huán)境性能預測方法,對預測器進行優(yōu)化和集成,以得到預測結(jié)果;
對預測器進行優(yōu)化包括:
S11、對每種預測器維持一候選集合,候選集合包含若干預測器,每個預測器對應唯一的一組參數(shù)值;
S12、從候選集合選擇若干預測誤差最小的預測器;
S13、每隔一定時間執(zhí)行一次S12,從候選集合中剔除預測誤差最大的若干預測器,同時對候選集合進行補充,以保持候選集合內(nèi)參數(shù)值的組合數(shù)量不變;
對預測器進行集成包括:
S21、采用Scoring算法為每個預測器都建立一個分數(shù),每次預測前對預測器上次的預測結(jié)果進行評價,根據(jù)預測結(jié)果的好壞,對分數(shù)進行相應的增加或降低,選擇分數(shù)高于一上限值的預測器作為預測器代表,預測器代表的輸出作為最終的預測結(jié)果;
或者,S22、選擇分數(shù)最高的若干預測器,對他們賦予不同的權(quán)重進行加權(quán)平均,每一預測器的權(quán)重等于(所選擇的分數(shù)最高的若干預測器中預測誤差最大值-次預測器的誤差值)/(所選擇的分數(shù)最高的若干預測器中預測誤差最大值-所選擇的分數(shù)最高的若干預測器中預測誤差最小值);
S23、預測結(jié)果為
其中,L為所選擇的分數(shù)最高的若干預測器的數(shù)量,αi為L個預測器中預測器i的權(quán)重,Pi(x)為預測器i的預測值。
較佳的,預測器的預測誤差采用平均相對誤差。
較佳的,平均相對誤差采用交叉驗證的方法,將所有誤差值分為K組,其中K-1組作為訓練集,剩余一組作為測試集,在K次實驗后將K個誤差值求平均值,作為預測器的平均相對誤差。
較佳的,S13中同時對候選集合進行補充包括:為每組候補集合中預測器的參數(shù)值增加一個隨機的沖量。
較佳的,S21中一旦選出預測器代表,則對所有分數(shù)進行重置,在預測器代表的分數(shù)低于一下限時重新選擇分數(shù)最高的預測器作為預測器代表。
較佳的,預測器的分數(shù)的增幅或降幅為:
增幅或降幅=2/(候選集合的預測器的數(shù)量-1)。
本發(fā)明針對分布式服務器性能的特點,使用集成學習方法對服務器性能進行預測。在集成學習過程中,采用對每種預測器的參數(shù)進行優(yōu)化,并從預測中優(yōu)選選擇一些效果較好的預測器,并把這些預測器集成起來,集成的方法采用加權(quán)或者評分算法得到最后的集成結(jié)果,該集成預測模型不僅降低了預測誤差,同時又達到了對不同數(shù)據(jù)集的很好的適應性。
附圖說明
圖1所示的是本發(fā)明的結(jié)構(gòu)示意圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學,未經(jīng)上海交通大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410205434.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





