[發明專利]一種基于深度強化學習的組播調度方法有效
| 申請號: | 202110761307.3 | 申請日: | 2021-07-06 |
| 公開(公告)號: | CN113490157B | 公開(公告)日: | 2022-02-25 |
| 發明(設計)人: | 黃川;崔曙光;李然 | 申請(專利權)人: | 香港中文大學(深圳) |
| 主分類號: | H04W4/06 | 分類號: | H04W4/06;H04W72/12 |
| 代理公司: | 成都巾幗知識產權代理有限公司 51260 | 代理人: | 邢偉 |
| 地址: | 518100 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 調度 方法 | ||
1.一種基于深度強化學習的組播調度方法,其特征在于:包括以下步驟:
S1.構建組播網絡模型并確定組播調度的目標問題;
S2.構建組播網絡的離線學習模型;
S3.進行離線訓練得到成熟的模型;
S4.對訓練得到的模型進行在線應用,實現組播調度;
所述步驟S1包括:
設一個小區中,用戶隨機請求提前緩存在基站里的N種內容,基站采用M個可用信道施行這N個內容的組播傳輸;考慮時隙化的模型,組播傳輸的開始和結束都發生在時隙的初始或結尾,而不會發生在時隙中間;
在第t個時隙內,新到達的對第n個內容的請求數量為qn(t),這些請求到達后,并不會被基站安排信道立即執行組播傳輸,而是暫時存儲在基站里并組成序列qn(t),即在第t個時隙初始時,未被服務的對第n個內容的請求序列;
其中,ln(t)表示在第t個時隙初始時算起,未被服務的對第n個內容的所有請求當中,最早達到的請求被延遲的時隙數;
將對第n個內容的請求延遲τ個時隙產生的瞬時時延懲罰定義為pn(τ),則第t個時隙,qn(t)內的請求會產生總瞬時時延懲罰如果第t個時隙內選擇去組播第n個內容,則對第n個內容的請求序列qn(t)會被清空而不會產生任何瞬時時延懲罰;
定義bn(t)為第n個內容在第t個時隙的組播狀態,如果至少一個信道在第t個時隙初始時開始組播第n個內容,其值為1;否則值為0;其中am(t)為第t個時隙初始時,第m個信道的決定:如果值為0,代表該信道不進行任何內容的組播;如果值為非零整數n,代表該信道于第t個時隙初始時開啟第n個內容的組播;函數只有在輸入為n的時候輸出為1,否則輸出為0;那么qn(t)里的請求產生的瞬時時延懲罰為
另外,如果第m個信道在第t個時隙初始時開啟對第am(t)個內容的組播,即am(t)≠0,則該組播傳輸的單位時隙能耗為其中為在第m個信道上對第am(t)個內容進行組播的單位時隙能耗系數,為中所有請求對應的用戶群體,與基站之間采用第m個信道進行下行組播傳輸時最差的信道系數;定義Tnm為在第m個信道上對第n個內容進行組播需要的時隙數量,則組播的總能耗為如果第m個信道在第t個時隙初始時不開啟任何內容的組播,即am(t)=0,則不會消耗能量;所以,基于組播調度決定am(t),將第m個信道在第t個時隙組播傳輸的總能耗總結為
組播調度的目標問題是折中優化對N個內容所有請求的平均瞬時時延懲罰以及M個信道所有組播傳輸的平均能耗,總結為
其中:
其中,V是能耗和瞬時時延懲罰的重要性比值;(1.1)和(1.2)中參數的動態更新規則由系統模型分析得到:
(1.1)解釋了第n個內容的請求序列qn(t)的元素數量,即ln(t)的更新方法,討論以下四種情況:
一,如果至少一個信道在第t個時隙初始時開始組播第n個內容且第t個時隙內沒有到達對第n個內容的新請求,即bn(t)=1,qn(t)=0,那么存儲在qn(t)中的舊請求因被服務而清空,加上沒有新請求,則第t+1個時隙時的請求序列qn+1(t)為空,其元素數量ln+1(t)為0;
二,如果同樣至少一個信道在第t個時隙初始時開始組播第n個內容,但是有非零個新請求到達,即bn(t)=1,qn(t)>0,那么第t+1個時隙時,第n個內容的請求序列只包含了這些新請求,即qn+1(t)=[qn(t)],其長度ln+1(t)為1;
三,如果沒有信道在第t個時隙初始時開始組播第n個內容,第n個內容的原請求序列qn(t)為空,即沒有舊請求,而且第t個時隙內沒有到達對第n個內容的新請求,即bn(t)=0,qn(t)=0,ln(t)=0,那么第t+1個時隙時,第n個內容的請求序列qn+1(t)不包含任何請求,其元素數量ln+1(t)為0;
四,其他情況下,第t+1個時隙時,第n個內容的請求序列qn+1(t)由舊請求序列qn(t)和新到達的請求qn(t)構成,即qn+1(t)=[qn(t),qn(t-1),…,qn(t-ln(t))],其元素數量ln+1(t)為ln(t)+1;
(1.2)解釋了N個內容的組播對M個信道占用情況的更新方法:首先cnm(t)被定義為在第t個時隙初始時,第n個內容的組播對第m個信道的占用情況:如果值為0,代表第m個信道當前沒有進行第n個內容的組播傳輸;否則,代表第m個信道已經執行了第n個內容的組播傳輸cnm(t)個時隙;
討論以下五種情況得到cnm(t)的更新規則:
一,如果第n個內容的組播傳輸只會占用第m個信道一個時隙,即Tnm=1,那么即使第m個信道在當前時隙開啟了第n個內容的組播傳輸,下個時隙開始時,它都已經完成該組播傳輸并閑置出來,所以cnm(t+1)恒等于0;
二,如果第n個內容的組播傳輸占用第m個信道的時間多于一個時隙,即Tnm>1,而且第m個信道在當前時隙開啟了第n個內容的組播傳輸,即am(t)=n,那么在下個時隙開始時,第m個信道已經執行了第n個內容的組播傳輸一個時隙,即cnm(t+1)=1;
三,如果Tnm>1,第m個信道在當前時隙沒有開啟對第n個內容的組播傳輸,即am≠n,而且第m個信道當前沒有執行對第n個內容的組播傳輸,即cnm(t)=0,那么下個時隙開始時,第m個信道依然沒有執行著對第n個內容的組播傳輸,即cnm(t+1)=0;
四,如果Tnm>1,第m個信道在當前時隙沒有開啟對第n個內容的組播傳輸,即am≠n,而且第m個信道對第n個內容的組播傳輸已經執行了Tnm-1個時隙,即cnm(t)=Tnm-1,那么下個時隙開始時,第m個信道將結束對第n個內容的組播傳輸回到閑置狀態,即cnm(t+1)=0;
五,如果Tnm>1,第m個信道在當前時隙沒有開啟對第n個內容的組播傳輸,即am≠n,而且第m個信道對第n個內容的組播傳輸的執行時間滿足0<cnm(t)<Tnm-1,那么下個時隙開始時,第m個信道對第n個內容的組播傳輸的累計執行時間加一,即cnm(t+1)=cnm(t)+1;
(1.3)中定義為第t個時隙初始時,第m個信道的占用狀態:如果第m個信道正在進行任意一個內容的組播,其值為1;否則值為0:
這里函數只有在輸入為正的時候輸出為1,否則輸出為0;
所以第m個信道只能在的條件下才能開啟新的組播,即對于所有的m和t恒成立;
上述問題是一個MDP問題,其包含
狀態:含義為在第t個時隙初始時,所有能夠觀測到的信息,也是馬爾科夫決策過程的狀態;
其中,表示在第t個時隙初始時,未被服務的對N個內容的請求序列集合;在第t個時隙初始時,N個內容對M個信道的占用情況;在第t個時隙初始時,N個內容在M個信道上進行組播傳輸需要的信道參數;
表示在第t個時隙初始時,未被服務的對第n個內容的所有請求對應的發送用戶群體,與基站之間采用第m個信道進行下行組播傳輸時最差的信道系數;
hnmk(t)表示在第t個時隙初始時,未被服務的對第n個內容的所有請求當中,第k個請求的發送用戶與基站之間采用第m個信道進行下行組播傳輸時的信道系數;
行動:其含義為在第t個時隙初始時,所有信道的決定,也是馬爾科夫決策過程的行動;
狀態轉移:按照條件(1.1)和(1.2)進行;
代價:
并且MDP問題存在時變限制條件(1.3)和高維離散行動空間;
所述步驟S2包括以下子步驟:
S201.搭建狀態修正模塊:
該模塊把狀態中具有時變維度的Q(t)修正為具有固定維度的矩陣其中M*是一個基于組播系統復雜度給定的常數;修正采用如下公式:
經過修正后,定義修正后的狀態為維度為M*N+2MN;
S202.搭建DDPG模塊,DDPG模塊包含actor-critic網絡和經歷回放模塊,搭建過程包括:
S2021.搭建actor-critic網絡,該網絡包括actor網絡和critic網絡:
actor網絡包含一個評估網絡和一個目標網絡,它們都是包含若干隱藏層的全連接神經網絡,隱藏層數量,節點以及激活函數的選擇都基于組播系統復雜度預先給定,輸入層節點數量為M*N+2MN,輸出層節點數量為M,將兩個網絡包含的神經網絡參數定義為θπ和
critic網絡也包含一個評估網絡和一個目標網絡,它們都是包含若干隱藏層的全連接神經網絡,隱藏層數量,節點以及激活函數的選擇都基于組播系統復雜度預先給定,輸入層節點數量為M*N+2MN+M,輸出層節點數量為1,將兩個網絡包含的神經網絡參數定義為θQ和
S2022.搭建經歷回放模塊,該模塊包含經歷緩存模塊和mini-batch模塊;
經歷緩存模塊的基本儲存單元為并命名為經歷,經歷緩存模塊最多存儲NR個經歷;
mini-batch模塊的功能是從經歷緩存模塊中隨機采樣出N0個經歷;
S203.構建行動嵌入模塊,該模塊調用DDPG模塊的評估網絡,基于修正后的狀態計算得到沃爾珀丁格行動包括:
S2031.調用DDPG模塊actor網絡的評估網絡,將作為輸入,輸出記為并命名為初始行動;
S2032.對中所有元素按照四舍五入取整,得到的結果記為記的第m個元素為則
S2033.對進行第一次合理性修正并將修正的結果記為記的第m個元素為則
;
S2034.對進行第二次合理性修正并將修正的結果記為記的第m個元素為如果成立,則滿足限制條件(1.3),即此時令如果不成立,令可知滿足限制條件(1.3),將其命名為候選行動;概括本步驟為
S2035.基于找到更多滿足限制條件的行動,并命名為排列行動記的第m個元素為如果不成立,則令對于滿足的所有信道,將其編號整合到集合中;同時,將這些編號對應的中的元素整合到集合中,并給中這些編號對應的元素賦值為其中
是集合的一個隨機排列,指該排列的第i個元素,而是元素m在集合中的編號;概括本步驟為
;
S2036.將所有排列行動整合到集合從中隨機挑選出k個排列行動構成排列集合即
S2037.調用DDPG模塊critic網絡的評估網絡,將中所有的排列行動一一挑選出來,和一起作為輸入,得到最大輸出值的排列行動記為沃爾珀丁格行動
S204.構建∈貪婪模塊:
該模塊的功能是基于沃爾珀丁格行動生成行動a(t),采用∈貪婪算法,即a(t)以∈的概率等于以1-∈的概率等于一個滿足限制條件(1.3)的隨機策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于香港中文大學(深圳),未經香港中文大學(深圳)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110761307.3/1.html,轉載請聲明來源鉆瓜專利網。





