[發(fā)明專利]一種基于強化學習的車載計算密集型應用的V2I卸載方法在審
| 申請?zhí)枺?/td> | 202111320216.2 | 申請日: | 2021-11-09 |
| 公開(公告)號: | CN114116047A | 公開(公告)日: | 2022-03-01 |
| 發(fā)明(設計)人: | 崔琳;周求湛;王聰;郭遲 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06F9/445 | 分類號: | G06F9/445;G06N3/04;G06N3/08 |
| 代理公司: | 哈爾濱龍科專利代理有限公司 23206 | 代理人: | 王新雨 |
| 地址: | 130012 吉林*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 車載 計算 密集型 應用 v2i 卸載 方法 | ||
1.一種基于強化學習的車載計算密集型應用的V2I卸載方法,其特征在于:所述方法包括以下步驟:
步驟一:對網絡和應用建模,一個基于MEC的車聯(lián)網網絡,包含RSU、邊緣服務器和車輛三種實體;RSU用集合表示,并沿單向直線道路均勻分布,RSU的覆蓋范圍有重疊或剛好對齊;每個RSU通過光纖與一臺邊緣服務器相連,RSU為在道路上行駛的車輛提供了通信和計算服務的全面覆蓋;所有車輛用集合表示,將車輛產生的應用程序劃分為若干個子任務,用有向無環(huán)圖表示:有向無環(huán)圖的結點集合表示各個子任務;其中,0和Vm+1是引入的虛擬子任務,稱0為入口任務,Vm+1為出口任務,并強制這兩個子任務在本地計算;另用Cm,j表示車輛m所產生的應用中每個子任務計算需求大?。挥邢驘o環(huán)圖的邊(i,j)m∈εm表示子任務間的依賴關系;針對某一特定子任務j,用pred(j)表示子任務j的全部前導子任務,用succ(j)表示子任務j的全部后續(xù)子任務;表示子任務之間傳輸數據的大?。欢M制變量αm,j,r代表子任務j是否選擇在RSU r連接的邊緣服務器上計算,若選擇在該RSU的邊緣服務器上計算則αm,j,r=1,否則αm,j,r=0;車輛m的動作向量為
步驟二:對車聯(lián)網網絡中的卸載流程建模并制定優(yōu)化目標為:
其中,為卸載時延和卸載服務失敗所受懲罰的加權和,用來指示卸載服務成功或失敗,代表卸載服務成功,故最小化整體卸載時延TTm;ζm=0代表卸載服務失敗,此時最小化因失敗而受到的懲罰,與各子任務輸入輸出有關,χ是懲罰因子,單位為/bit;ρr表示RSU r上的CPU核數,即同時可最多計算ρr個子任務;α={α1,…,αm,…,αM}表示所有車輛的動作向量;
步驟三:將步驟二中的問題轉換為MDP,確定智能體的實體并設置MDP的狀態(tài)空間、動作空間與獎勵函數:
首先設置智能體為每個行駛的車輛,然后定義智能體的狀態(tài)空間、動作空間與獎勵函數;狀態(tài)空間包含車輛m與RSU r之間的信道增益hm,r、子任務的計算需求Cm,j、子任務之間傳輸的數據量大小RSU中邊緣服務器的CPU核數ρr、車的速度vm;動作空間包含每個子任務選擇RSU的索引號am,j;獎勵函數包含了優(yōu)化目標與約束條件兩個部分,其中ε()表示階躍函數;
步驟四:采用MADDPG算法求解,得到車聯(lián)網網絡中所有車的卸載決策,所述卸載決策包括應用上傳時選擇的RSU,各子任務計算時選擇的邊緣服務器以及將結果回傳給車輛時選擇的RSU;當網絡狀態(tài)變化時,只需將新的網絡狀態(tài)輸入給MADPPG訓練好的模型即可得到新的決策結果。
2.根據權利要求1所述的一種基于強化學習的車載計算密集型應用的V2I卸載方法,其特征在于:步驟一中,為了處理卸載的應用程序,協(xié)作計算方案產生計算會話,每個會話具體為:首先,如果車輛生成應用程序,該車輛應選擇一個具備可接受信道條件的RSU;然后,應用程序的輸入數據將從車輛上傳到其選定的RSU;如果應用程序的總工作負載過大,則可以選擇其他RSU,以便在輸入數據完全上傳后協(xié)作計算劃分的子任務;協(xié)作計算是通過RSU之間的通信實現的。
3.根據權利要求1所述的一種基于強化學習的車載計算密集型應用的V2I卸載方法,其特征在于:步驟三中,
(1)狀態(tài)空間
(2)動作空間
(3)獎勵函數rt:
4.根據權利要求1所述的一種基于強化學習的車載計算密集型應用的V2I卸載方法,其特征在于:步驟四中,為了正確擬合策略函數和Q值,需要給予神經網絡一個隨機初始化的權重并通過訓練過程來迭代更新神經網絡的權重;分別創(chuàng)建“演員”和“評論家”的副本神經網絡用于穩(wěn)定訓練過程;副本神經網絡稱為目標網絡,而原始網絡稱為評估網絡,采用不同的權重參數以區(qū)分各個神經網絡。
5.根據權利要求1所述的一種基于強化學習的車載計算密集型應用的V2I卸載方法,其特征在于:θm表示評估“演員”網絡、ωm表示評估“評論家”網絡;和分別表示目標“演員”網絡和目標“評論家”網絡;對于訓練過程,MADDPG不必事先獲取數據集,只要初始化環(huán)境狀態(tài)可用,就可以使用具有現有權重的神經網絡生成樣本;樣本遵循:(st,at,rt,st+1);生成的樣本依次存儲到經驗回放池中;經驗回放池本質是一個有限長度的循環(huán)隊列,一旦沒有空間用于存儲新樣本,經驗回放池中最早存儲的樣本將被丟棄;當訓練網絡時,每次從經驗回放池中隨機抽取K個樣本進行訓練,每個樣本記為
由于“演員”網絡的更新按照“評論家”網絡對策略評估的指示,因此“演員”網絡在“評論家”網絡更新之后再進行更新;評估網絡的參數周期性地賦予目標網絡以對目標網絡的參數進行更新;因此,各個神經網絡的更新如下:
評估“演員”網絡采用策略梯度的方式更新,先對目標函數求梯度再執(zhí)行梯度上升法:
通過最小化損失函數來更新評估“評論家”網絡:
其中,來自于目標“評論家”網絡,γ為折扣因子,從上式可得,“評論家”網絡的更新基于全局的信息,能夠使智能體學習到更好的策略,而訓練完成后再執(zhí)行算法求得決策的過程,只需要向“演員”輸入狀態(tài)即可得到決策結果;
目標網絡的更新是采用周期性地獲取評估網絡的參數與自身當前參數進行加權的方式,稱為軟更新:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111320216.2/1.html,轉載請聲明來源鉆瓜專利網。





