[發明專利]一種基于深度強化學習的組播調度方法有效

申請號：	202110761307.3	申請日：	2021-07-06
公開（公告）號：	CN113490157B	公開（公告）日：	2022-02-25
發明（設計）人：	黃川;崔曙光;李然	申請（專利權）人：	香港中文大學（深圳）
主分類號：	H04W4/06	分類號：	H04W4/06;H04W72/12
代理公司：	成都巾幗知識產權代理有限公司 51260	代理人：	邢偉
地址：	518100 廣東省深***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于深度強化學習調度方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于深度強化學習的組播調度方法，其特征在于：包括以下步驟：

S1.構建組播網絡模型并確定組播調度的目標問題；

S2.構建組播網絡的離線學習模型；

S3.進行離線訓練得到成熟的模型；

S4.對訓練得到的模型進行在線應用，實現組播調度；

所述步驟S1包括：

設一個小區中，用戶隨機請求提前緩存在基站里的N種內容，基站采用M個可用信道施行這N個內容的組播傳輸；考慮時隙化的模型，組播傳輸的開始和結束都發生在時隙的初始或結尾，而不會發生在時隙中間；

在第t個時隙內，新到達的對第n個內容的請求數量為q_n(t)，這些請求到達后，并不會被基站安排信道立即執行組播傳輸，而是暫時存儲在基站里并組成序列q_n(t)，即在第t個時隙初始時，未被服務的對第n個內容的請求序列；

其中，l_n(t)表示在第t個時隙初始時算起，未被服務的對第n個內容的所有請求當中，最早達到的請求被延遲的時隙數；

將對第n個內容的請求延遲τ個時隙產生的瞬時時延懲罰定義為p_n(τ)，則第t個時隙，q_n(t)內的請求會產生總瞬時時延懲罰如果第t個時隙內選擇去組播第n個內容，則對第n個內容的請求序列q_n(t)會被清空而不會產生任何瞬時時延懲罰；

定義b_n(t)為第n個內容在第t個時隙的組播狀態，如果至少一個信道在第t個時隙初始時開始組播第n個內容，其值為1；否則值為0；其中a_m(t)為第t個時隙初始時，第m個信道的決定：如果值為0，代表該信道不進行任何內容的組播；如果值為非零整數n，代表該信道于第t個時隙初始時開啟第n個內容的組播；函數只有在輸入為n的時候輸出為1，否則輸出為0；那么q_n(t)里的請求產生的瞬時時延懲罰為

另外，如果第m個信道在第t個時隙初始時開啟對第a_m(t)個內容的組播，即a_m(t)≠0，則該組播傳輸的單位時隙能耗為其中為在第m個信道上對第a_m(t)個內容進行組播的單位時隙能耗系數，為中所有請求對應的用戶群體，與基站之間采用第m個信道進行下行組播傳輸時最差的信道系數；定義T_nm為在第m個信道上對第n個內容進行組播需要的時隙數量，則組播的總能耗為如果第m個信道在第t個時隙初始時不開啟任何內容的組播，即a_m(t)＝0，則不會消耗能量；所以，基于組播調度決定a_m(t)，將第m個信道在第t個時隙組播傳輸的總能耗總結為

組播調度的目標問題是折中優化對N個內容所有請求的平均瞬時時延懲罰以及M個信道所有組播傳輸的平均能耗，總結為

其中：

其中，V是能耗和瞬時時延懲罰的重要性比值；(1.1)和(1.2)中參數的動態更新規則由系統模型分析得到：

(1.1)解釋了第n個內容的請求序列q_n(t)的元素數量，即l_n(t)的更新方法，討論以下四種情況：

一，如果至少一個信道在第t個時隙初始時開始組播第n個內容且第t個時隙內沒有到達對第n個內容的新請求，即b_n(t)＝1,q_n(t)＝0，那么存儲在q_n(t)中的舊請求因被服務而清空，加上沒有新請求，則第t+1個時隙時的請求序列q_n+1(t)為空，其元素數量l_n+1(t)為0；

二，如果同樣至少一個信道在第t個時隙初始時開始組播第n個內容，但是有非零個新請求到達，即b_n(t)＝1,q_n(t)＞0，那么第t+1個時隙時，第n個內容的請求序列只包含了這些新請求，即q_n+1(t)＝[q_n(t)]，其長度l_n+1(t)為1；

三，如果沒有信道在第t個時隙初始時開始組播第n個內容，第n個內容的原請求序列q_n(t)為空，即沒有舊請求，而且第t個時隙內沒有到達對第n個內容的新請求，即b_n(t)＝0,q_n(t)＝0,l_n(t)＝0，那么第t+1個時隙時，第n個內容的請求序列q_n+1(t)不包含任何請求，其元素數量l_n+1(t)為0；

四，其他情況下，第t+1個時隙時，第n個內容的請求序列q_n+1(t)由舊請求序列q_n(t)和新到達的請求q_n(t)構成，即q_n+1(t)＝[q_n(t),q_n(t-1),…,q_n(t-l_n(t))]，其元素數量l_n+1(t)為l_n(t)+1；

(1.2)解釋了N個內容的組播對M個信道占用情況的更新方法：首先c_nm(t)被定義為在第t個時隙初始時，第n個內容的組播對第m個信道的占用情況：如果值為0，代表第m個信道當前沒有進行第n個內容的組播傳輸；否則，代表第m個信道已經執行了第n個內容的組播傳輸c_nm(t)個時隙；

討論以下五種情況得到c_nm(t)的更新規則：

一，如果第n個內容的組播傳輸只會占用第m個信道一個時隙，即T_nm＝1，那么即使第m個信道在當前時隙開啟了第n個內容的組播傳輸，下個時隙開始時，它都已經完成該組播傳輸并閑置出來，所以c_nm(t+1)恒等于0；

二，如果第n個內容的組播傳輸占用第m個信道的時間多于一個時隙，即T_nm＞1，而且第m個信道在當前時隙開啟了第n個內容的組播傳輸，即a_m(t)＝n，那么在下個時隙開始時，第m個信道已經執行了第n個內容的組播傳輸一個時隙，即c_nm(t+1)＝1；

三，如果T_nm＞1，第m個信道在當前時隙沒有開啟對第n個內容的組播傳輸，即a_m≠n，而且第m個信道當前沒有執行對第n個內容的組播傳輸，即c_nm(t)＝0，那么下個時隙開始時，第m個信道依然沒有執行著對第n個內容的組播傳輸，即c_nm(t+1)＝0；

四，如果T_nm＞1，第m個信道在當前時隙沒有開啟對第n個內容的組播傳輸，即a_m≠n，而且第m個信道對第n個內容的組播傳輸已經執行了T_nm-1個時隙，即c_nm(t)＝T_nm-1，那么下個時隙開始時，第m個信道將結束對第n個內容的組播傳輸回到閑置狀態，即c_nm(t+1)＝0；

五，如果T_nm＞1，第m個信道在當前時隙沒有開啟對第n個內容的組播傳輸，即a_m≠n，而且第m個信道對第n個內容的組播傳輸的執行時間滿足0＜c_nm(t)＜T_nm-1，那么下個時隙開始時，第m個信道對第n個內容的組播傳輸的累計執行時間加一，即c_nm(t+1)＝c_nm(t)+1；

(1.3)中定義為第t個時隙初始時，第m個信道的占用狀態：如果第m個信道正在進行任意一個內容的組播，其值為1；否則值為0：

這里函數只有在輸入為正的時候輸出為1，否則輸出為0；

所以第m個信道只能在的條件下才能開啟新的組播，即對于所有的m和t恒成立；

上述問題是一個MDP問題，其包含

狀態：含義為在第t個時隙初始時，所有能夠觀測到的信息，也是馬爾科夫決策過程的狀態；

其中，表示在第t個時隙初始時，未被服務的對N個內容的請求序列集合；在第t個時隙初始時，N個內容對M個信道的占用情況；在第t個時隙初始時，N個內容在M個信道上進行組播傳輸需要的信道參數；

表示在第t個時隙初始時，未被服務的對第n個內容的所有請求對應的發送用戶群體，與基站之間采用第m個信道進行下行組播傳輸時最差的信道系數；

h_nmk(t)表示在第t個時隙初始時，未被服務的對第n個內容的所有請求當中，第k個請求的發送用戶與基站之間采用第m個信道進行下行組播傳輸時的信道系數；

行動：其含義為在第t個時隙初始時，所有信道的決定，也是馬爾科夫決策過程的行動；

狀態轉移：按照條件(1.1)和(1.2)進行；

代價:

并且MDP問題存在時變限制條件(1.3)和高維離散行動空間；

所述步驟S2包括以下子步驟：

S201.搭建狀態修正模塊：

該模塊把狀態中具有時變維度的Q(t)修正為具有固定維度的矩陣其中M^*是一個基于組播系統復雜度給定的常數；修正采用如下公式：

經過修正后，定義修正后的狀態為維度為M^*N+2MN；

S202.搭建DDPG模塊，DDPG模塊包含actor-critic網絡和經歷回放模塊，搭建過程包括：

S2021.搭建actor-critic網絡，該網絡包括actor網絡和critic網絡：

actor網絡包含一個評估網絡和一個目標網絡，它們都是包含若干隱藏層的全連接神經網絡，隱藏層數量，節點以及激活函數的選擇都基于組播系統復雜度預先給定，輸入層節點數量為M^*N+2MN，輸出層節點數量為M，將兩個網絡包含的神經網絡參數定義為θ^π和

critic網絡也包含一個評估網絡和一個目標網絡，它們都是包含若干隱藏層的全連接神經網絡，隱藏層數量，節點以及激活函數的選擇都基于組播系統復雜度預先給定，輸入層節點數量為M^*N+2MN+M，輸出層節點數量為1，將兩個網絡包含的神經網絡參數定義為θ^Q和

S2022.搭建經歷回放模塊，該模塊包含經歷緩存模塊和mini-batch模塊；

經歷緩存模塊的基本儲存單元為并命名為經歷，經歷緩存模塊最多存儲N_R個經歷；

mini-batch模塊的功能是從經歷緩存模塊中隨機采樣出N₀個經歷；

S203.構建行動嵌入模塊，該模塊調用DDPG模塊的評估網絡，基于修正后的狀態計算得到沃爾珀丁格行動包括：

S2031.調用DDPG模塊actor網絡的評估網絡，將作為輸入，輸出記為并命名為初始行動；

S2032.對中所有元素按照四舍五入取整，得到的結果記為記的第m個元素為則

S2033.對進行第一次合理性修正并將修正的結果記為記的第m個元素為則

；

S2034.對進行第二次合理性修正并將修正的結果記為記的第m個元素為如果成立，則滿足限制條件(1.3)，即此時令如果不成立，令可知滿足限制條件(1.3)，將其命名為候選行動；概括本步驟為

S2035.基于找到更多滿足限制條件的行動，并命名為排列行動記的第m個元素為如果不成立，則令對于滿足的所有信道，將其編號整合到集合中；同時，將這些編號對應的中的元素整合到集合中，并給中這些編號對應的元素賦值為其中

是集合的一個隨機排列，指該排列的第i個元素，而是元素m在集合中的編號；概括本步驟為

；

S2036.將所有排列行動整合到集合從中隨機挑選出k個排列行動構成排列集合即

S2037.調用DDPG模塊critic網絡的評估網絡，將中所有的排列行動一一挑選出來，和一起作為輸入，得到最大輸出值的排列行動記為沃爾珀丁格行動

S204.構建∈貪婪模塊：

該模塊的功能是基于沃爾珀丁格行動生成行動a(t)，采用∈貪婪算法，即a(t)以∈的概率等于以1-∈的概率等于一個滿足限制條件(1.3)的隨機策略。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于香港中文大學（深圳），未經香港中文大學（深圳）許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110761307.3/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種可以固定不同規格汽車輪轂的打磨保護裝置
下一篇：自動識別記錄網絡播放器MAC地址的系統及方法

同類專利

專利分類

H 電學

H04 電通信技術
H04W 無線通信網絡
H04W4-00 專門適用于無線通信網絡的業務或設施
H04W4-02 .利用用戶或終端位置的業務
H04W4-06 .廣播選擇分發；到用戶組的業務；單向選呼業務
H04W4-12 .消息傳送，例如SMS[短消息業務]；郵箱；通告，例如，通知用戶通信請求的狀態或進展
H04W4-16 .與通信相關的補充業務,例如，呼叫轉移或呼叫保持
H04W4-18 .信息格式或內容轉換，例如，為了向用戶或終端無線傳送的目的，由網絡對發送或接收的信息進行適應修改

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】