[發明專利]一種基于深度強化學習的軟件定義車載任務細粒度卸載方法有效
| 申請號: | 202010571179.1 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111866807B | 公開(公告)日: | 2022-10-28 |
| 發明(設計)人: | 李致遠;彭二帥;潘森杉;畢俊蕾;張威威 | 申請(專利權)人: | 江蘇大學 |
| 主分類號: | H04W4/44 | 分類號: | H04W4/44;H04W24/02;H04W24/06;H04W28/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 212013 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 軟件 定義 車載 任務 細粒度 卸載 方法 | ||
1.一種基于深度強化學習的軟件定義車載任務細粒度卸載方法,其特征在于,包括如下步驟:
步驟1,獲取信息:車輛可接入的RSU的集合r、請求在RSU區域中的卸載的車輛任務Q、RSU的網絡帶寬b;
步驟2,根據步驟1中的RSU的信息劃分車載任務的卸載時隙;
步驟3,將車載任務卸載時隙決策方法進行建模;
步驟4,使用深度強化學習方法求解步驟3中的模型表達式;
所述步驟1中的信息具體包括:
①RSU區域中的卸載任務,記為q={Q1,…Qi,…,Qn},其中Qi表示第i輛車的任務;
②車載任務大小,記為m={M1,…,Mi,…Mn},其中Mi表示Qi的大小;
③t={T1,…,Ti,…,Tn},其中Ti即為Qi的時延約束;
④可供車輛接入的RSU集合,記為r={R1,…Ri,…Rn};
⑤各個RSU已經接入的車載任務數目,記為rA={R1A,…,RiA,…,RnA};
⑥RSU的帶寬,記為b={B1,…,Bi,…,Bn},其中Bi表示Ri的網絡帶寬;
所述步驟2中車載任務的卸載時隙劃分方法為:
步驟2.1,收集RSU的鏈路帶寬,記為W;收集RSU的平均信號功率,記為P;收集RSU的噪聲功率,記為N;將RSU與車輛的鏈路損耗功率記為Lp;
步驟2.2,車輛與RSU的傳輸速率ν可表示為:
其中,[LP]=32.45+20lg d+20lg f,d為車輛與RSU的距離,f為RSU的信號頻率;
步驟2.3,大小為M的車載任務的傳輸延遲可表示為:
步驟2.4,根據網絡延遲受車輛與RSU的相對距離影響,將每個RSU的覆蓋范圍劃分為n個任務卸載時隙Gap1,…,Gapi,…Gapn,其中任意時隙用g表示,g∈[Gap1,…,Gapi,…Gapn];
步驟3中將車載任務卸載時隙決策方法進行建模的方法為:
步驟3.1,定義卸載決策為l={L1,…,Li,…,Ln},Li表示第i輛車的選擇卸載任務的地點;過SRU做地面垂點,g表示為卸載時隙與該垂點的距離,則其中,high為RSU與地面的垂直高度;
步驟3.2,確定單個任務的卸載決策,車載任務卸載時隙決策Li即為對卸載時隙g的選擇,即對一定有Li∈[Gap1,…,Gapi,…Gapn];
步驟3.3,車載任務的傳輸延遲可由RSU的帶寬b、卸載時隙決策l、車載任務的大小m決定,則車載任務的傳輸延遲可重寫為:
式(3)中的②表示RSU的鏈路帶寬W由RSU的帶寬b代替;④表示車輛與RSU的相對距離由決策l表示;
步驟3.4,由式(3)再次重寫車載任務的傳輸延遲為:
其中Lp=32.45+20lg l(km)+20lg f(MHz);
步驟3.5,將車載任務卸載時隙決策方法轉化為求解式(5),Di(b,l,Mi)表示第i個車載任務的傳輸延遲;
其中,MAXrA表示rA的最大值;車載任務卸載時隙決策會影響rA的值,rA≤MAXrA表示rA不能超過最大的車載任務接入數量;
步驟4中利用深度強化學習方法求解式(5)的具體步驟為:
步驟4.1,建立馬爾可夫狀態空間
S={t,rV,rD,rA}
其中各個參數說明如下:
①車載任務的時延約束記為t={T1,…,Ti,…,Tn},其中Ti為任務Qi的時延約束;
②供車輛接入的RSU集合定義為r={R1,…Ri,…Rn},r中各個RSU的任意卸載時隙用g表示,g∈[Gap1,…,Gapi,…Gapn],處于不同的卸載時隙中車輛任務的卸載速率各有不同,將r中的所有卸載時隙的卸載速率集合表示為rV={R1G1V,…,RiGjV,…,RnGnV},RiGjV表示第i個RSU的第j個卸載時隙的傳輸速率;
③r中各個RSU的各個卸載時隙中車載任務的傳輸延遲表示為rD={R1G1D,…,RiGjD,…RnGnD},RiGjD表示車載任務在第i個RSU的第j個卸載時隙的傳輸延時;
④各個RSU已經接入的車載任務數目為rA={R1A,…,RiA,…,RnA};
步驟4.2,建立馬爾可夫動作空間
A={(α,b)|a∈{[1,n]∩N+},b∈{[1,n]∩N+}
其中各個參數說明如下:
①a表示執行卸載車載任務時車輛所接入的RSU;
②b表示執行卸載車載任務時車輛所接入的RSU的卸載時隙;
③N+表示正整數;
步驟4.3,建立馬爾可夫獎勵函數reward:
reward=ε(η)×base+(2ε(η)-1)×delay(rD,t)+access(rA)
其中各個參數說明如下:
①ε(η)為階躍函數
ε(η)=1時表示車載任務卸載成功,ε(η)=0表示車載任務被成功卸載失敗,base為常數,表示基礎獎勵,則ε(η)×base表示當車載任務卸載成功時獲取了基礎獎勵,失敗時則不會獲取基礎獎勵;
②delay(rD,t)表示執行車輛卸載任務所獲取的獎勵或者懲罰
delay(rD)=Rward×(rD-t)
其中,rD表示卸載該車載任務所用的時間,t表示該車載任務的卸載時間約束,當在約束時間t內完成卸載則獲取獎勵,否則獲取懲罰,Rward為獎勵值或者懲罰值;
③access(rA)用來判斷當前RSU是否還可以接收更多的車載任務
MAXrA表示當前RSU可接入的最多的車載任務數量,當可以接入更多車載任務時,即rA≤MAXrA,access(rA)不會對獎勵函數reward有任何影響,當rA>MAXrA時,則access(rA)會使reward等于0,即不會由任何獎勵;
步驟4.4,根據步驟4.1-4.3中的馬爾可夫模型,使用DDPG-HER算法求解最優卸載時隙。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇大學,未經江蘇大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010571179.1/1.html,轉載請聲明來源鉆瓜專利網。





