[發明專利]資源的分配處理方法、裝置、設備及存儲介質有效
| 申請號: | 201811321302.3 | 申請日: | 2018-11-07 |
| 公開(公告)號: | CN109445947B | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 孫木鑫 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 張子青;劉芳 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 資源 分配 處理 方法 裝置 設備 存儲 介質 | ||
本申請提供一種資源的分配處理方法、裝置、設備及存儲介質,該方法包括:獲取當前資源狀態及預設決策集合中各決策當前被采用次數;基于所述當前資源狀態及所述預設決策集合中各決策當前被采用次數,采用預設決策選擇規則確定目標資源分配決策;根據所述目標資源分配決策進行資源的分配處理。通過在進行決策的預設決策選擇規則中增加了決策當前被采用次數的環境獎勵函數影響因素,使得沒有被采用的決策的獎勵值較大,在循環過程中可以跳出局部的決策路徑循環,重新探索新的路徑,可以有效避免陷入局部最優,從而有效減少資源浪費。
技術領域
本申請涉及云計算技術領域,尤其涉及一種資源的分配處理方法、裝置、設備及存儲介質。
背景技術
隨著云技術的興起,各企業云服務的發展模式逐漸完善,云服務被運用到各種不同的應用場景。
面對企業云服務業務跨越式發展及多變環境下帶來的機遇和挑戰,企業在成本和資源優化方面面臨較大壓力。因此,自動化的對云環境資源進行升級或降級,減少系統資源消耗成為云環境面臨的重要問題。
現有技術中,采用強化學習Q-learning算法來解決資源分配問題。但是,在云資源分配問題上,現有的強化學習算法存在著訓練學習容易陷入局部循環,導致采取的決策可能并不是最優的決策,造成資源的浪費。
發明內容
本申請提供一種資源的分配處理方法、裝置、設備及存儲介質,以解決現有技術資源分配容易造成資源浪費等缺陷。
本申請第一個方面提供一種資源的分配處理方法,包括:
獲取當前資源狀態及預設決策集合中各決策當前被采用次數;
基于所述當前資源狀態及所述預設決策集合中各決策當前被采用次數,采用預設決策選擇規則確定目標資源分配決策;
根據所述目標資源分配決策進行資源的分配處理。
進一步地,所述當前資源狀態包括當前資源配置狀態、當前資源消耗狀態及當前時間狀態;所述預設決策集合包括至少兩種預設決策;
所述基于所述當前資源狀態及所述預設決策集合中各決策當前被采用次數,采用預設決策選擇規則確定目標資源分配決策,包括:
基于所述當前資源配置狀態、所述當前資源消耗狀態、所述當前時間狀態、所述預設決策集合中各決策當前被采用次數,采用所述預設決策選擇規則,從所述預設決策集合中確定至少一個決策作為所述目標資源分配決策。
進一步地,所述基于所述當前資源狀態及所述預設決策集合中各決策當前被采用次數,采用預設決策選擇規則確定目標資源分配決策,包括:
遍歷所述預設決策集合中的決策,獲取使Q(S,a)-log(count(S,a))最大的決策a作為所述目標資源分配決策;
其中,S表示當前資源狀態,a表示決策,Q(S,a)表示當前資源狀態S下采用決策a的Q值,即累積獎勵值,count(S,a)表示決策a當前被采用次數,即在與當前資源狀態一致的資源狀態下采用了決策a的次數,log(count(S,a))表示對count(S,a)取對數。
進一步地,在根據所述目標資源分配決策進行資源的分配處理之后,所述方法還包括:
獲取當前Q值矩陣,當前Q值矩陣中每個Q值表征了相應時間狀態采用相應決策的累積獎勵值;
根據所述當前Q值矩陣中,所述當前資源狀態的后一資源狀態對應的最大Q值,獲取所述當前時間狀態下采用所述目標資源分配決策所對應的新Q值;
根據所述新Q值更新所述Q值矩陣,并將所述目標資源分配決策的當前被采用次數加1獲得所述目標資源分配決策的新當前被采用次數,所述目標資源分配決策的當前被采用次數為在與所述當前時間狀態一致的歷史時間狀態采用所述目標資源分配決策的次數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811321302.3/2.html,轉載請聲明來源鉆瓜專利網。





