[發明專利]基于Q學習的資源調度方法和裝置有效
| 申請號: | 201680056785.1 | 申請日: | 2016-05-24 |
| 公開(公告)號: | CN108139930B | 公開(公告)日: | 2021-08-20 |
| 發明(設計)人: | 亞伊·阿里安;夏伊·霍羅威茨;鄭淼 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48 |
| 代理公司: | 北京龍雙利達知識產權代理有限公司 11329 | 代理人: | 時林;毛威 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 學習 資源 調度 方法 裝置 | ||
一種基于Q學習的資源調度方法和裝置,能夠提高資源調度性能。該方法包括:根據應用的多個狀態?動作組合中的第一狀態?動作組合的回報值,將該第一狀態?動作組合對應的Q值更新為第一數值(S210),其中,該第一狀態?動作組合表示當該應用處于第一狀態時執行第一動作,該第一狀態為該應用在早于第一反饋周期的第二反饋周期所處的狀態;根據該第一數值,更新該多個狀態?動作組合中的至少一個狀態?動作組合對應的Q值;在當前狀態所對應的至少兩個狀態?動作組合中,確定具有最大Q值的狀態?動作組合所對應的動作,其中,該當前狀態為該應用在該第一反饋周期所處的狀態;根據該確定的動作,對分配給該應用的資源數量進行調整處理(S230)。
技術領域
本發明實施例涉及信息技術領域,并且更具體地,涉及基于Q學習的資源調度方法和裝置。
背景技術
強化學習(reinforcement learning,又稱再勵學習,評價學習)是一種重要的機器學習方法,在智能控制機器人及分析預測等領域有許多應用。所謂強化學習就是智能系統從環境到行為映射的學習,以使獎勵值函數的值最大,強化學習中由環境提供的獎勵值函數的值是對動作的好壞進行評價,而不是告訴強化學習系統如何去產生正確的動作。由于外部環境提供的信息很少,強化學習必須靠自身的經歷進行學習。通過這種方式,強化學習在行動-評價的環境中獲得知識,改進行動方案以適應環境。而Q學習(Q-learning)方法則是強化學習中最經典的算法之一,是一種與模型無關的學習算法。
數據中心可以基于上述Q學習方法進行應用(Application)的資源調度。在基于Q學習的資源調度方法中,可以確定應用所處的當前狀態,從該當前狀態的所有候選動作(action)中選擇具有最大Q值的目標動作,并執行該目標動作;然后,可以確定在該當前狀態下執行該目標動作之后進入的下一狀態,根據該下一狀態的所有候選動作中的最大Q值,更新該當前狀態下該目標動作的Q值。然而,在現有的基于Q學習的資源調度方法中,需要大量的反饋周期才能使得應用的各個狀態下的候選動作對應的Q值達到穩定的收斂狀態,其中,在收斂狀態下,針對Q表中的大多數狀態,最大的Q值所對應的動作不再發生改變,也就是說,當Q表達到收斂時,在同樣的狀態下,可以采取同樣的動作。
發明內容
本發明實施例提供一種基于Q學習的資源調度方法和裝置,能夠提高資源調度性能。
第一方面,提供了一種基于Q學習的資源調度方法,包括:在第一反饋周期,根據應用的多個狀態-動作組合中的第一狀態-動作組合的回報值,將該第一狀態-動作組合對應的Q值更新為第一數值,其中,該第一狀態-動作組合表示當該應用處于第一狀態時執行第一動作,該第一狀態為該應用在早于該第一反饋周期的第二反饋周期所處的狀態,該第一動作用于對分配給該應用的資源數量進行調整處理;在該第一反饋周期,根據該第一數值,更新該多個狀態-動作組合中不同于該第一狀態-動作組合的至少一個狀態-動作組合對應的Q值;在當前狀態所對應的至少兩個狀態-動作組合中,確定具有最大Q值的狀態-動作組合所對應的動作,其中,該當前狀態為該應用在該第一反饋周期所處的狀態;在該第一反饋周期,根據該確定的動作,對分配給該應用的資源數量進行調整處理。
可選地,應用在第二反饋周期處于第一狀態,并且在第一狀態下采取第一動作,則可以根據應用在第一反饋周期所處的當前狀態,確定該第一狀態-動作組合對應的回報值,并根據該回報值,更新該第一狀態-動作組合對應的Q值。
在更新該第一狀態-動作組合對應的Q值之后,還可以根據該第一狀態-動作組合對應的更新后的Q值,即第一數值,更新該應用的不同于該第一狀態-動作組合的至少一個狀態-動作組合中每個狀態-動作組合對應的Q值,能夠提高該Q表的各個狀態-動作組合對應的Q值的收斂速度,從而提升基于Q學習的資源調度性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201680056785.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于調度多個任務的任務調度裝置和方法
- 下一篇:通過重映射同步來加速任務子圖





