[發明專利]一種車聯網中基于深度強化學習的資源聯合分配方法有效
| 申請號: | 202110174006.0 | 申請日: | 2021-02-07 |
| 公開(公告)號: | CN112995950B | 公開(公告)日: | 2022-03-29 |
| 發明(設計)人: | 胡斌杰;黃錚 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | H04W4/44 | 分類號: | H04W4/44;H04L67/10;H04L67/12;H04L67/562;H04L67/568;G06N3/04;G06N3/08 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 詹麗紅 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 聯網 基于 深度 強化 學習 資源 聯合 分配 方法 | ||
1.一種車聯網中基于深度強化學習的資源聯合分配方法,其特征在于,所述的資源聯合分配方法包括以下步驟:
S1、構建一個包括車對基礎設施通信和基礎設施對數據中心通信的車聯網通信場景,該車聯網通信場景中每個基站均配置一個邊緣計算服務器和緩存服務器,每個基站配置有限的頻譜資源,該車聯網通信場景中利用NFV和SDN技術對物理資源進行虛擬化,并根據車輛節點的時空分布為邊緣計算服務器和緩存服務器配置有限的物理資源,最終由SDN集中控制物理資源的聯合分配,其中,所述物理資源包括計算資源和緩存資源,SDN表示軟件定義網絡,NFV表示網絡功能虛擬化,車聯網通信場景中基于ICN技術進行內容的存儲和檢索,車輛具備V2I通信能力,其中,ICN表示信息中心化網絡,V2I表示車輛到基礎設施;
S2、針對每一車輛節點,基站收集通信小區內基礎設施能夠分配給車輛節點的通信、計算和緩存資源狀態信息,包括基站到車輛的下行速率、基站頻譜資源的占用率、邊緣計算服務器分配給車輛的算力、邊緣計算服務器算力資源的占用率、車輛節點請求的視頻內容大小和視頻內容編號,作為深度強化學習網絡的輸入狀態,其中,深度強化學習網絡簡稱為DQN;
S3、獲取車輛節點與基礎設施的連接狀態,包括車輛節點與基站的連接、車輛節點與邊緣計算服務器的連接,作為DQN的輸出動作,其中,車輛節點與緩存服務器的連接通過規則控制;
S4、以最大化通信小區內車輛節點請求任務的總吞吐量為目標,結合約束條件,建立最優化問題模型;
S5、根據最優化問題模型,設計DQN獎勵函數和DQN神經網絡結構;
S6、通過步驟S5中設計得到的DQN神經網絡提取輸入狀態的特征,擬合Q表的狀態動作函數,得到各種輸入狀態下輸出動作的Q值,并結合獎勵函數訓練和更新神經網絡;
S7、利用訓練好的DQN,根據車輛節點的輸入狀態,輸出相應的動作Q值序列,將Q值最大的動作作為車輛節點的通信、計算和緩存資源分配策略;
其中,所述的步驟S1過程如下:
S1.1、建立車輛節點與基站的通信模型,其中無線信道服從有限狀態馬爾可夫過程,具體如下:
車輛節點集合為基站集合為
車輛節點u接收到基站k信噪比為γu,k,將信噪比離散為集合車輛節點u在時隙t接收到基站k的信噪比的狀態轉移概率矩陣為表達式為:
上式中,Di表示當前時隙信噪比,Dj表示下一時隙信噪比,表示信噪比由Di轉變為Dj的狀態轉移概率;
基站k在時隙t能分配給車輛節點u的下行速率為根據香農公式可得:
上式中,bu,k表示基站k分配給車輛節點u的帶寬;
基站k的下行速率上限為Gk,滿足以下條件:
上式中,表示在時隙t車輛節點u與基站k的連接狀態,取值為1或者0,當取值為1表示建立連接,當取值為0表示未建立連接;
在時隙t基站k的下行速率使用占比為表達式為:
車輛節點u在時隙t請求格式為w的視頻內容v,其大小為則車輛節點u向基站k請求視頻(v,w)的下行傳輸時延為:
如果車輛節點u請求的視頻(v,w)不存在于本地通信小區的緩存服務器,并且也不能通過邊緣計算服務器進行格式轉換得到,那么基站k將通過數據中心請求視頻(v,w),則數據中心到基站k的下行時延為表達式為:
上式中,為數據中心到基站k的下行傳輸速率;
車輛節點u與基站k的連接需要滿足以下條件:
上式中,ρu,k為車輛節點u駛出基站k通信范圍需走的距離,ωu為車輛節點u的行駛速率,λ為常量;
S1.2、建立視頻任務卸載到邊緣計算服務器的計算模型,其中邊緣計算服務器的算力分配服從有限狀態馬爾可夫過程,具體如下:
邊緣計算服務器集合為
邊緣計算服務器m在時隙t分配給車輛節點u的算力為fu,m(t),將算力值離散為集合邊緣計算服務器m在時隙t分配給車輛節點u的算力的狀態轉移概率矩陣為表達式為:
上式中,Ei表示當前時隙算力,Ej表示下一時隙算力,表示算力由Ei轉變為Ej的狀態轉移概率;
根據車輛節點的時空分布,利用SDN技術為邊緣計算服務器配置有限的計算資源,邊緣計算服務器m的計算資源上限為Fm,滿足以下條件:
上式中,表示在時隙t車輛節點u與邊緣計算服務器m的連接狀態,取值為1或者0,當取值為1表示建立連接,當取值為0表示未建立連接;
邊緣計算服務器m在時隙t的算力使用占比為表達式為:
用表示車輛節點u在時隙t請求的視頻(v,w)是否需要在邊緣計算服務器m進行格式轉換,取值為1或者0,當時,表示需要進行格式轉換,當時,表示不需要進行格式轉換;
車輛節點u在時隙t請求的視頻任務卸載到邊緣計算服務器m的計算時延為表達式為:
上式中,β為常數,表示計算每Mb所需的CPU周期數;
S1.3、建立視頻任務存儲到緩存服務器的緩存模型,具體如下:
基于ICN技術存儲和檢索視頻內容,緩存服務器集合為緩存服務器c中的視頻內容集合為Vc={v1,v2,…,vQ},緩存服務器c中的視頻格式集合為Wc={w1,w2,…,wQ},Q表示緩存服務器中緩存的視頻數量;
緩存服務器c中的視頻列表根據視頻請求受歡迎程度每隔時間Tc更新一次,根據車輛節點的時空分布,利用SDN技術為緩存服務器配置有限的緩存資源,緩存服務器c的緩存資源上限為Hc,滿足以下條件:
用表示在時隙t車輛節點u與緩存服務器c的連接狀態,取值為1或者0,當取值為1表示建立連接,當取值為0表示未建立連接;
用表示在時隙t車輛節點u請求的視頻(v,w)是否緩存于緩存服務器c,取值為1或者0,當時,表示在時隙t車輛節點u請求的視頻(v,w)緩存于緩存服務器c,當時,表示在時隙t車輛節點u請求的視頻(v,w)沒有緩存于緩存服務器c;
其中,所述的步驟S2過程如下:
利用步驟S1中定義的資源狀態信息,構建DQN的輸入狀態Su(t),表示車輛節點u在時隙t的信息狀態,表示方式如下:
其中,表示基站k在時隙t能分配給車輛節點u的下行速率,表示在時隙t基站k的下行速率使用占比,fu,m(t)表示邊緣計算服務器m在時隙t能分配給車輛節點u的算力,表示邊緣計算服務器m在時隙t的算力使用占比,表示在時隙t車輛節點u請求的視頻(v,w)是否緩存于緩存服務器c,表示車輛節點u在時隙t請求格式為w的視頻內容v的視頻大小,vu(t)表示車輛節點u在時隙t請求的視頻內容編號;
其中,所述的步驟S3過程如下:
S3.1、通過DQN預測車輛節點與基站和邊緣計算服務器的連接行為:
車輛節點與基站和邊緣計算服務器在時隙t的連接狀態作為DQN的輸出動作au(t),表達方式如下:
其中,表示車輛節點u在時隙t與通信小區所有基站的連接行為向量,表示車輛節點u在時隙t與通信小區所有邊緣計算服務器的連接行為向量;
S3.2、通過規則決定車輛節點與緩存服務器的連接行為:
緩存有視頻(v,w)的緩存集合為J(v,w)={c|v∈Vc,w∈Wc,c∈C},緩存有視頻內容v的緩存集合為J(v)={c|v∈Vc,c∈C},則車輛節點選擇連接到某一個緩存服務器的規則如下:
上式中,min()表示取集合的最小值,表示空集,k表示車輛節點接入的基站編號,此時車輛節點u與選中的緩存服務器c的值
其中,所述的步驟S4過程如下:
車輛節點u在時隙t請求視頻(v,w)的時延為表達式如下:
上式中,等號右側第一項表示車輛節點u請求的視頻(v,w)存在于緩存服務器c中,視頻直接通過基站回傳的時延;第二項表示車輛節點u請求的視頻(v,w)需要先經過邊緣計算服務器進行轉碼,然后再通過基站回傳的時延;第三項表示車輛節點u請求的視頻內容不存在于緩存服務器中,則基站向數據中心請求相應視頻,然后再通過基站回傳的時延;
車輛節點u在時隙t請求視頻(v,w)的吞吐率為表達式如下:
車輛節點u在時間T內請求的視頻內容集合為車輛節點u在時間T內請求的視頻格式集合為P表示請求的視頻數量,車輛節點u在時間T內請求任務的總吞吐量為Ωu,表達式如下:
最大化通信小區內所有車輛節點請求任務的總吞吐量,目標函數如下:
C1:
C2:
C3:
C4:
C5:
C6:
C7:
C8:
C9:
C10:
上述約束條件中,C1表示每一基站頻譜資源的約束條件,C2表示每一邊緣計算服務器算力資源的約束條件,C3表示每一車輛節點在每個時隙最多只能連接到一個基站,C4表示每一車輛節點在每個時隙最多只能連接到一個邊緣計算服務器,C5表示每一車輛節點在每個時隙最多只能連接到一個緩存服務器,C6表示車輛與基站的連接行為,取值為0或1,當取值為1表示連接,當取值為0表示未連接,C7表示車輛與邊緣計算服務器的連接行為,取值為0或1,當取值為1表示連接,當取值為0表示未連接,C8表示車輛與緩存服務器的連接行為,取值為0或1,當取值為1表示連接,當取值為0表示未連接,C9表示緩存服務器是否緩存有請求的視頻(v,w),C10表示請求的視頻(v,w)是否需要通過邊緣計算服務器進行轉碼;
其中,所述的步驟S5過程如下:
S5.1、設計DQN獎勵函數如下:
用表示車輛節點u在時隙t接入基站k時,是否因為基站k的資源限制導致未能連接成功,值為1表示連接成功,值為0表示連接失敗;
用表示車輛節點u在時隙t接入邊緣計算服務器m時,是否因為邊緣計算服務器m的資源限制導致未能連接成功,值為1表示連接成功,值為0表示連接失敗;
車輛節點u在時隙t的獎勵函數為ru(t),表達式如下:
上式中,表示車輛節點成功接入基站的獎勵,表示車輛節點未成功接入基站的獎勵,值0.2表示接入邊緣計算服務器對應獎勵的權重,表示車輛節點成功接入邊緣計算服務器的獎勵,表示車輛節點未成功接入邊緣計算服務器的獎勵;
S5.2、設計DQN網絡結構,其中,DQN的網絡輸入的維度為[1,H,W],其中,1表示通道數,H表示高,W表示寬,先通過5層卷積層逐步提取輸入狀態的特征,然后對特征通道進行加權,之后用兩個全連接層分別對加權后的輸出做特征選擇,最后作相加融合得到各個輸出動作的Q值;
其中,所述的步驟S6中DQN神經網絡的訓練和更新過程如下:
S6.1、初始化策略網絡、目標網絡權重和ε-greedy動作選擇策略參數;
S6.2、初始化系統環境,得到系統狀態s(t);
S6.3、策略網絡根據系統狀態作推理,并依據動作選擇策略選擇動作a(t);
S6.4、動作作用于環境,得到系統獎勵r(t),并轉移到下一狀態s(t+1);
S6.5、將當前狀態轉移對[s(t),a(t),r(t),s(t+1)]存于經驗回放池;
S6.6、從經驗池抽取樣本對策略網絡進行訓練,并更新目標網絡權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110174006.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種塔機安全監控管理設備
- 下一篇:一種礦井中預防火車故障攔截裝置





