[發明專利]基于Q學習的通信網絡任務資源調度方法有效
| 申請號: | 202110271286.7 | 申請日: | 2021-03-12 |
| 公開(公告)號: | CN113163447B | 公開(公告)日: | 2022-05-20 |
| 發明(設計)人: | 桂勁松;劉堯 | 申請(專利權)人: | 中南大學 |
| 主分類號: | H04W28/08 | 分類號: | H04W28/08;H04W72/12 |
| 代理公司: | 長沙永星專利商標事務所(普通合伙) 43001 | 代理人: | 周詠;米中業 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 學習 通信 網絡 任務 資源 調度 方法 | ||
1.一種基于Q學習的通信網絡任務資源調度方法,包括如下步驟:
S1.獲取通信網絡的實時通信狀態和通信參數,并初始化R表;具體為采用如下步驟進行初始化:
前提:每個初始狀態中資源項的值不超過所有節點初始化資源量之和;
Ⅰ.對于每一個均重復進行如下步驟Ⅱ~步驟Ⅷ;其中為任務調度節點i在時刻0的狀態;Si為任務調度節點i的狀態空間集合;
Ⅱ.對于每一個均重復進行如下步驟Ⅲ~步驟Ⅷ;為任務調度節點i在時刻0采取的行動;Ai為任務調度節點i的行動集合;
Ⅲ.根據初始行動估算擬調度任務量;
Ⅳ.根據擬調度任務量估算任務需要的資源量;
Ⅴ.根據擬調度任務所需資源量與初始狀態中資源項的值估算資源利用率
Ⅵ.根據每個節點初始化的損毀概率估算所有節點損毀概率的均值;
Ⅶ.進行判斷:若初始狀態中任務項的值不大于資源項的值,則將節點損毀概率的均值作為初始任務成功率否則,將初始任務成功率設置為0;
Ⅷ.初始化任務調度節點i在時刻0獲得的回報值ri0:ε2為權重因子,且取值范圍為0~1;
S2.通信網絡的每一個任務調度節點進行自身Q表的訓練;具體為采用如下步驟進行訓練:
重復如下步驟A~步驟F直至重復次數達到設定的次數K:
A.隨機選擇一個初始狀態為任務調度節點i在時刻t的狀態;Si為任務調度節點i的狀態空間集合;
B.設定第一變量Qmax的值為0;
C.對于每一個均進行如下步驟a~步驟c;為任務調度節點i在時刻t采取的行動;Ai為任務調度節點i的行動集合:
a.采用如下算式計算任務調度節點i在t+1時刻的Q值:
式中為任務調度節點i在t+1時刻的Q值;α為學習因子,取值范圍為[0,1],且α值越大表明行動的執行者越看重當前的回報;為任務調度節點i在時刻t的Q值;為任務調度節點i在時刻t+1獲得的回報值;β為折扣因子,取值范圍為[0,1),β取值越大表明行動的執行者更重視未來的回報;為任務調度節點i在時刻t采取行動后從狀態轉變而來的新狀態;為任務調度節點i在新狀態下能獲得最大Q值的行動;為任務調度節點i在時刻t+1在新狀態下采取行動的Q值;
b.更新Qi中相應的元素;Qi為任務調度節點i的Q表;
c.對更新后的Qi中的元素進行判斷:
若則將Qmax的值更新為同時將amax的值更新為amax為任務調度節點i在時刻t+1在狀態下能獲得最大Q值的行動;
否則,Qmax和amax不變;
D.設置探測概率
E.產生隨機數ε,ε的取值范圍為0~1;
F.對探測概率和產生的隨機數ε進行判斷:
若則再次進行判斷:若行動amax能夠將狀態轉換到下一個狀態則將的值賦值給并跳轉回步驟B;否則,跳轉回步驟A;
否則,從集合Ai中隨機選擇一個除amax之外的行動,并再次進行判斷:若被選擇的行動能夠將狀態轉換到下一個狀態則將的值賦值給并跳轉回步驟B;否則,跳轉回步驟A;
S3.通信網絡的每一個任務調度節點進行自身Q表的決策;具體為采用如下步驟進行決策:
(1)初始設定和第二變量V=0;
(2)對于每一個均進行如下操作:
根據從Qi中查到
進行判斷:若則將賦值給V,同時將賦值給a0,a0為任務調度節點i在時刻t在狀態下能獲得最大Q值的行動;
否則,V和a0不變;
(3)進行判斷:若行動a0能夠將狀態轉換到下一個狀態則采用如下算式計算
(4)更新Qi中相應的元素;
(5)將的值賦值給并回到步驟(2);
S4.通信網絡根據每一個任務調度節點在步驟S3得到的Q表進行后續的任務資源調度;
S5.通信網絡的每一個任務調度節點進行自身R表的更新;
S6.重復步驟S2~S5,進行持續的通信網絡任務資源調度。
2.根據權利要求1所述的基于Q學習的通信網絡任務資源調度方法,其特征在于步驟S5所述的通信網絡的每一個任務調度節點進行自身R表的更新,具體為采用如下步驟進行更新:
1)統計從lt到lt+τt期間資源視圖中的資源總量,并記為fit;lt為任務調度與執行虛擬時間t;τt為任務調度與執行周期;資源視圖為當前調度期內調度節點i的可見執行節點集合;
2)統計從lt到lt+τt期間已調度執行的任務的任務量并記為并統計所占用的資源總量;
3)根據步驟1)和步驟2)的統計結果,估算資源利用率并記為資源利用率的定義為實際占用資源量與資源總量的比值;
4)根據從lt到lt+τt期間每個執行任務的節點的損毀率,估算任務執行的成功率;
5)基于步驟4)得到的每個任務的成功率,統計所有任務的平均成功率并記為
6)采用如下算式計算任務調度節點i在時刻t獲得的回報值
式中ε1為權重因子,且取值范圍為0~1;為任務調度節點i在時刻t統計的所有任務的平均成功率;為任務調度節點i在時刻t統計的資源利用率;
7)根據在回報表Ri中找到最近的狀態;
8)根據在回報表Ri中找到最近的行動;
9)使用更新回報表Ri中找到的最近的狀態以及找到的最近的行動所對應的回報值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110271286.7/1.html,轉載請聲明來源鉆瓜專利網。





