[發明專利]基于Q學習的通信網絡任務資源調度方法有效

申請號：	202110271286.7	申請日：	2021-03-12
公開（公告）號：	CN113163447B	公開（公告）日：	2022-05-20
發明（設計）人：	桂勁松;劉堯	申請（專利權）人：	中南大學
主分類號：	H04W28/08	分類號：	H04W28/08;H04W72/12
代理公司：	長沙永星專利商標事務所(普通合伙) 43001	代理人：	周詠;米中業
地址：	410083 湖南***	國省代碼：	湖南;43
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于學習通信網絡任務資源調度方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于Q學習的通信網絡任務資源調度方法，包括如下步驟：

S1.獲取通信網絡的實時通信狀態和通信參數，并初始化R表；具體為采用如下步驟進行初始化：

前提：每個初始狀態中資源項的值不超過所有節點初始化資源量之和；

Ⅰ.對于每一個均重復進行如下步驟Ⅱ～步驟Ⅷ；其中為任務調度節點i在時刻0的狀態；S_i為任務調度節點i的狀態空間集合；

Ⅱ.對于每一個均重復進行如下步驟Ⅲ～步驟Ⅷ；為任務調度節點i在時刻0采取的行動；A_i為任務調度節點i的行動集合；

Ⅲ.根據初始行動估算擬調度任務量；

Ⅳ.根據擬調度任務量估算任務需要的資源量；

Ⅴ.根據擬調度任務所需資源量與初始狀態中資源項的值估算資源利用率

Ⅵ.根據每個節點初始化的損毀概率估算所有節點損毀概率的均值；

Ⅶ.進行判斷：若初始狀態中任務項的值不大于資源項的值，則將節點損毀概率的均值作為初始任務成功率否則，將初始任務成功率設置為0；

Ⅷ.初始化任務調度節點i在時刻0獲得的回報值r_i⁰：ε₂為權重因子，且取值范圍為0～1；

S2.通信網絡的每一個任務調度節點進行自身Q表的訓練；具體為采用如下步驟進行訓練：

重復如下步驟A～步驟F直至重復次數達到設定的次數K：

A.隨機選擇一個初始狀態為任務調度節點i在時刻t的狀態；S_i為任務調度節點i的狀態空間集合；

B.設定第一變量Q_max的值為0；

C.對于每一個均進行如下步驟a～步驟c；為任務調度節點i在時刻t采取的行動；A_i為任務調度節點i的行動集合：

a.采用如下算式計算任務調度節點i在t+1時刻的Q值：

式中為任務調度節點i在t+1時刻的Q值；α為學習因子，取值范圍為[0,1]，且α值越大表明行動的執行者越看重當前的回報；為任務調度節點i在時刻t的Q值；為任務調度節點i在時刻t+1獲得的回報值；β為折扣因子，取值范圍為[0,1)，β取值越大表明行動的執行者更重視未來的回報；為任務調度節點i在時刻t采取行動后從狀態轉變而來的新狀態；為任務調度節點i在新狀態下能獲得最大Q值的行動；為任務調度節點i在時刻t+1在新狀態下采取行動的Q值；

b.更新Q_i中相應的元素；Q_i為任務調度節點i的Q表；

c.對更新后的Q_i中的元素進行判斷：

若則將Q_max的值更新為同時將a_max的值更新為a_max為任務調度節點i在時刻t+1在狀態下能獲得最大Q值的行動；

否則，Q_max和a_max不變；

D.設置探測概率

E.產生隨機數ε，ε的取值范圍為0～1；

F.對探測概率和產生的隨機數ε進行判斷：

若則再次進行判斷：若行動a_max能夠將狀態轉換到下一個狀態則將的值賦值給并跳轉回步驟B；否則，跳轉回步驟A；

否則，從集合A_i中隨機選擇一個除a_max之外的行動，并再次進行判斷：若被選擇的行動能夠將狀態轉換到下一個狀態則將的值賦值給并跳轉回步驟B；否則，跳轉回步驟A；

S3.通信網絡的每一個任務調度節點進行自身Q表的決策；具體為采用如下步驟進行決策：

(1)初始設定和第二變量V＝0；

(2)對于每一個均進行如下操作：

根據從Q_i中查到

進行判斷：若則將賦值給V，同時將賦值給a₀，a₀為任務調度節點i在時刻t在狀態下能獲得最大Q值的行動；

否則，V和a₀不變；

(3)進行判斷：若行動a₀能夠將狀態轉換到下一個狀態則采用如下算式計算

(4)更新Q_i中相應的元素；

(5)將的值賦值給并回到步驟(2)；

S4.通信網絡根據每一個任務調度節點在步驟S3得到的Q表進行后續的任務資源調度；

S5.通信網絡的每一個任務調度節點進行自身R表的更新；

S6.重復步驟S2～S5，進行持續的通信網絡任務資源調度。

2.根據權利要求1所述的基于Q學習的通信網絡任務資源調度方法，其特征在于步驟S5所述的通信網絡的每一個任務調度節點進行自身R表的更新，具體為采用如下步驟進行更新：

1)統計從l_t到l_t+τ_t期間資源視圖中的資源總量，并記為f_i^t；l_t為任務調度與執行虛擬時間t；τ_t為任務調度與執行周期；資源視圖為當前調度期內調度節點i的可見執行節點集合；

2)統計從l_t到l_t+τ_t期間已調度執行的任務的任務量并記為并統計所占用的資源總量；

3)根據步驟1)和步驟2)的統計結果，估算資源利用率并記為資源利用率的定義為實際占用資源量與資源總量的比值；

4)根據從l_t到l_t+τ_t期間每個執行任務的節點的損毀率，估算任務執行的成功率；

5)基于步驟4)得到的每個任務的成功率，統計所有任務的平均成功率并記為

6)采用如下算式計算任務調度節點i在時刻t獲得的回報值

式中ε₁為權重因子，且取值范圍為0～1；為任務調度節點i在時刻t統計的所有任務的平均成功率；為任務調度節點i在時刻t統計的資源利用率；

7)根據在回報表R_i中找到最近的狀態；

8)根據在回報表R_i中找到最近的行動；

9)使用更新回報表R_i中找到的最近的狀態以及找到的最近的行動所對應的回報值。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中南大學，未經中南大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110271286.7/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種梯度組織的金屬材料高通量制備方法
下一篇：高產對氨基苯丙氨酸的重組大腸桿菌構建方法

同類專利

專利分類

H 電學

H04 電通信技術
H04W 無線通信網絡
H04W28-00 網絡業務量或資源管理
H04W28-02 .業務量管理，例如流量控制或擁塞控制
H04W28-16 .中央資源管理；資源協商，例如協商帶寬或QoS[服務質量]
H04W28-18 ..協商無線通信參數
H04W28-24 ..協商SLA[業務等級協定]；協商QoS[服務質量]
H04W28-26 ..資源預留

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】