[發明專利]一種基于強化學習的云平臺資源調度策略在審
| 申請號: | 202011472253.0 | 申請日: | 2020-12-16 |
| 公開(公告)號: | CN112799828A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 裴春紅;王志明;張烜 | 申請(專利權)人: | 山西西電信息技術研究院有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F9/455 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 030000 山西省太原市山西綜改示范區太原*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 平臺 資源 調度 策略 | ||
1.基于強化學習的云平臺資源調度策略,其特征在于,所述基于強化學習的云平臺資源調度策略包括以下步驟:
步驟一,構建基于強化學習的云平臺資源調度策略架構;
步驟二,改良Q-leaning算法,使用改良的Q-leaning算法對值函數進行優化;
步驟三,預處理任務,更新值函數表,得到最優策略;
步驟四,決策動態調整,用于細粒度動態調度任務以適應云環境的大規模需要,實現云平臺資源動態調度。
2.如權利要求1所述的基于強化學習的云平臺資源調度策略,其特征在于,所述架構包括:
狀態空間:建立狀態空間S,云平臺資源自動調度要解決的問題是尋找到一個最佳的虛擬機來執行任務,所以狀態空間可表示為:
S=(1,0,...,1)
代表第一個虛擬機目前被一個任務占用,第二個虛擬機空閑,最后一個虛擬機被一個任務占用。
動作空間:根據n個任務的請求,我們將模型動作空間設為:
代表著第n個任務請求被第m個虛擬機所執行。
獎懲函數:決策動作好壞的重要衡量標準。能耗是衡量資源調用的一個重要的單位,而能耗同時受限于計算節點的資源利用率,所以兼顧到提高資源利用率和降低能耗的這兩個方面,可以設獎懲函數r的計算公式為:
其中i代表第i個物理機,該物理機上有i_local個虛擬機,j代表該物理機上的第j個虛擬機,ui,j代表第i個物理機上第j個虛擬機的利用率,averwj代表任務在虛擬機j上的平均等待時間。如果任務被分配給一個虛擬機后,該物理機上的平均利用率比其他的高,并且該虛擬機的平均等待時間比其他的低,那么該調度程序將獲得獎勵,如果沒有滿足上述條件,則受到懲罰,其他為0。
3.如權利要求1所述的基于強化學習的云平臺資源調度策略,其特征在于,所述改良Q-leaning算法,使用改良的Q-leaning算法對值函數進行優化包含:在原本值函數
上進行修改,將其優化成
Q(t+1)(st,at)=(1-α)Q(t)(st,at)+α[r+γmaxQ(t)(s’,a’)-Q(t)(s,a)]
其中α≤1代表學習速率,α越大,則之前的基于強化學習所得到的結果保留越少。0≤γ≤1代表懲罰項,這個變量決定著函數的收斂速度,γ越小,則對后繼狀態的獎懲影響越小,不容易得到最優策略,只會容易得到次優策略;但是如果γ取值過大,則會導致函數的收斂速度變慢。
4.如權利要求1所述的基于強化學習的云平臺資源調度策略,其特征在于,所述預處理任務,更新值函數表,得到最優策略包含:使用改良后的Q-leaning 算法對存放在隊列中的任務進行預處理,進而獲取在各個時間狀態下虛擬機和物理機的CPU利用率等信息,在查看每個新的狀態和獎懲值后,將使獎懲函數和值函數最大的動作a設為目前狀態應該采用的動作,更新狀態后,不斷重復該操作,然后通過
error=MAX(error|Qt-Qprevious-t)
實現狀態的收斂,最終將整個Q-table表更新完畢,從中選出最大的Q值對應的動作作為最優策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山西西電信息技術研究院有限公司,未經山西西電信息技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011472253.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:估值失敗原因的定位方法和裝置
- 下一篇:一種淺表層地熱能干化污泥系統





