[發(fā)明專利]一種基于深度強(qiáng)化學(xué)習(xí)的時(shí)間敏感網(wǎng)絡(luò)通信流調(diào)度方法有效
| 申請?zhí)枺?/td> | 202110257321.X | 申請日: | 2021-03-09 |
| 公開(公告)號: | CN113285872B | 公開(公告)日: | 2022-09-23 |
| 發(fā)明(設(shè)計(jì))人: | 萬海;鐘春蒙;趙曦濱 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | H04L45/12 | 分類號: | H04L45/12;H04L45/28;H04L45/00;H04L47/125;G06N3/04;G06N3/08 |
| 代理公司: | 北京鴻元知識產(chǎn)權(quán)代理有限公司 11327 | 代理人: | 陳英俊 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強(qiáng)化 學(xué)習(xí) 時(shí)間 敏感 網(wǎng)絡(luò) 通信 調(diào)度 方法 | ||
本發(fā)明公開了一種基于深度強(qiáng)化學(xué)習(xí)的時(shí)間敏感網(wǎng)絡(luò)通信流調(diào)度方法,其步驟如下:通過構(gòu)筑基礎(chǔ)、系統(tǒng)建模、系統(tǒng)框架、時(shí)隙選擇、狀態(tài)建模、動(dòng)作建模、環(huán)境建模、深度神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)整體的構(gòu)成,并通過錯(cuò)誤恢復(fù)、實(shí)驗(yàn)論證和實(shí)驗(yàn)對象對整體進(jìn)行檢測,保證整體的正常使用。該基于深度強(qiáng)化學(xué)習(xí)的時(shí)間敏感網(wǎng)絡(luò)通信流調(diào)度方法,提出了一種適用于TS流調(diào)度的基于DRL的建模、訓(xùn)練和應(yīng)用方法,使用不同的數(shù)據(jù)訓(xùn)練就能夠應(yīng)用在不同的網(wǎng)絡(luò)環(huán)境,且提出了一些優(yōu)化方法,使用有向圖表達(dá)網(wǎng)絡(luò)信息使得DRLS能夠動(dòng)態(tài)的調(diào)度TS流并且能夠在網(wǎng)絡(luò)拓?fù)渥兓瘯r(shí)迅速恢復(fù),控制門技術(shù)的使用緩解了DNN的不確定性并且提高了調(diào)度方法的調(diào)度能力和可靠性。
技術(shù)領(lǐng)域
本發(fā)明涉及通信流調(diào)度方法技術(shù)領(lǐng)域,具體為一種基于深度強(qiáng)化學(xué)習(xí)的時(shí)間敏感網(wǎng)絡(luò)通信流調(diào)度方法。
背景技術(shù)
時(shí)間敏感網(wǎng)絡(luò)(TSN)是工業(yè)公職應(yīng)用領(lǐng)域的關(guān)鍵技術(shù),這一領(lǐng)域通常有實(shí)時(shí)網(wǎng)絡(luò)通信需求,TSN網(wǎng)絡(luò)中最具挑戰(zhàn)性的任務(wù)之一是設(shè)計(jì)合適的路由配置以實(shí)現(xiàn)時(shí)敏通信的時(shí)間隔離和端到端實(shí)時(shí)性的保證,這一任務(wù)也被稱為調(diào)度,時(shí)間敏感通信需求(TS流)可能會因應(yīng)用通信需求的變化或網(wǎng)絡(luò)拓?fù)涞淖兓l(fā)生變化,在這種情況下,調(diào)度方法必須要盡快計(jì)算新的調(diào)度,在學(xué)術(shù)界和工業(yè)界主要有兩種調(diào)度方法:基于求解器的方法和基于啟發(fā)式規(guī)則的方法,基于求解器的方法一般使用整數(shù)線性求解器(ILP)求解調(diào)度約束得到調(diào)度方案,這種方法非常耗時(shí),基于啟發(fā)式規(guī)則的方法相對來說會快一些,但是它們很難為復(fù)雜網(wǎng)絡(luò)計(jì)算出調(diào)度,我們提出了一種新穎的基于啟發(fā)式規(guī)則并充分利用深度強(qiáng)化學(xué)習(xí)工具的調(diào)度方法——基于深度強(qiáng)化學(xué)習(xí)的時(shí)間敏感網(wǎng)絡(luò)通信流調(diào)度方法(DRLS),擁有端到端實(shí)時(shí)通信保障的時(shí)間敏感通信一直以來都是航空控制領(lǐng)域研究的熱點(diǎn)問題,其他快速發(fā)展的領(lǐng)域,例如工業(yè)控制和列車通信也都逐漸加入確定性網(wǎng)絡(luò)通信的浪潮,傳統(tǒng)的“盡力而為”網(wǎng)絡(luò)主要關(guān)注點(diǎn)在于高吞吐量和低時(shí)延,但是它無法滿足實(shí)時(shí)傳輸?shù)男枨?,TSN被提出來就是為了解決實(shí)時(shí)數(shù)據(jù)的確定性傳輸問題,TSN是一個(gè)網(wǎng)絡(luò)通信協(xié)議用來將以太網(wǎng)中的時(shí)間敏感技術(shù)標(biāo)準(zhǔn)化,使其可以被廣泛使用,在TSN中,最具挑戰(zhàn)性的任務(wù)是為所有的網(wǎng)絡(luò)設(shè)備找到一個(gè)合理的配置,使其可以傳輸所有TS通信流,這個(gè)配置也叫作調(diào)度表,調(diào)度表需要滿足每一條流的時(shí)延都小于最大端到端時(shí)延,同時(shí)任意兩條流之間必須在時(shí)間上隔離開來,計(jì)算調(diào)度表的過程稱為調(diào)度,它不僅包括所有TS流的路由,還包括TS流所有幀的發(fā)送、轉(zhuǎn)發(fā)和接收時(shí)間點(diǎn),TS調(diào)度問題通常是一個(gè)多約束優(yōu)化問題,需要專家知識對相應(yīng)問題進(jìn)行分析和建模,TS調(diào)度問題被證明是NP完全的,因此,研究人員致力于尋找一個(gè)近似的局部最優(yōu)解(調(diào)度方法),這個(gè)近似解可以在合理時(shí)間內(nèi)計(jì)算出次優(yōu)的調(diào)度表,可調(diào)度性(即給定TS流需求找到合適調(diào)度的能力)和運(yùn)行時(shí)間是評估調(diào)度方法的兩個(gè)最重要的指標(biāo),一般來說,TS流的調(diào)度是根據(jù)網(wǎng)絡(luò)拓?fù)浜蚑S流的需求來計(jì)算的,然而,TS流需求和網(wǎng)絡(luò)拓?fù)淇赡苁遣粩嘧兓?,網(wǎng)絡(luò)拓?fù)涞淖兓蛟O(shè)備故障會導(dǎo)致TS流需求的變化,為不斷變化的TS流需求計(jì)算調(diào)度表,我們稱之為可恢復(fù)性,也是調(diào)度方法的一個(gè)重要性能標(biāo)準(zhǔn),TS調(diào)度方法主要分為兩類:基于求解器的調(diào)度方法和基于啟發(fā)式規(guī)則的調(diào)度方法,基于求解器的方法,如基于SMT求解器的方法和基于ILP求解器的方法可以實(shí)現(xiàn)極高的鏈路利用率,為包含TS流和BE流的混合網(wǎng)絡(luò)計(jì)算調(diào)度,但該方法計(jì)算復(fù)雜度高,可恢復(fù)性差,另一方面,傳統(tǒng)的基于啟發(fā)式的方法(例如,基于禁忌的搜索方法不夠一般化,只有在特定場景中才會有好的結(jié)果,因此,設(shè)計(jì)一種高效、高質(zhì)量的啟發(fā)式算法是解決TS調(diào)度問題的關(guān)鍵,TS調(diào)度問題本質(zhì)上是一類組合優(yōu)化問題,目前,深度強(qiáng)化學(xué)習(xí)(DRL)已經(jīng)被用來解決調(diào)度問題,一些研究者使用DRL訓(xùn)練高質(zhì)量的領(lǐng)域特定主體(agent),并使用該主體解決相應(yīng)的調(diào)度問題,理想的主體(agent)是一組用于調(diào)度的啟發(fā)式規(guī)則,本文提出了一個(gè)基于DRL的TSN調(diào)度方法(DRLS),使用DRL訓(xùn)練主體(agent)在許多復(fù)雜的網(wǎng)絡(luò)場景中動(dòng)態(tài)調(diào)度TS流,這些動(dòng)態(tài)場景包括TS流需求變化(增加或減少)的場景和網(wǎng)絡(luò)拓?fù)渥兓?如網(wǎng)絡(luò)節(jié)點(diǎn)或鏈路故障)的場景,在計(jì)算TS流的調(diào)度時(shí),DRLS主體(agent)表現(xiàn)為一個(gè)精心設(shè)計(jì)的啟發(fā)式規(guī)則,通過使用不同的網(wǎng)絡(luò)環(huán)境來訓(xùn)練DRLS,可以得到適應(yīng)各種網(wǎng)絡(luò)環(huán)境的主體(agent),DRLS有兩個(gè)優(yōu)勢:相對較低的運(yùn)行時(shí)間和強(qiáng)大的可調(diào)度性,和基于ILP求解器的方法相比,DRLS極大的減少了運(yùn)行時(shí)間和計(jì)算復(fù)雜度,并且有更好的可恢復(fù)性,和傳統(tǒng)的啟發(fā)式方法相比,DRLS在各種場景中有好得多的可調(diào)度性,調(diào)度TS流需要確定路由以及報(bào)文在每一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)上發(fā)出的時(shí)間,因此DRL需要詳細(xì)描述網(wǎng)絡(luò)資源和TS流需求,但是,如果描述的太過復(fù)雜,動(dòng)作空間就會變得過大,同時(shí)也會增加計(jì)算復(fù)雜度,DRLS用有向圖表達(dá)網(wǎng)絡(luò)拓?fù)洌渲杏涗浟司W(wǎng)絡(luò)資源和TS流需求信息,我們通過使用時(shí)隙這個(gè)概念,同時(shí)將路由分解為一系列的鏈路組合來降低DRL模型的動(dòng)作空間,主體(agent)的設(shè)計(jì)也是一個(gè)很大的挑戰(zhàn),DRLS的主體(agent)是一個(gè)深度神經(jīng)網(wǎng)絡(luò)(DNN),主體(agent)必須要獲取網(wǎng)絡(luò)的全局信息才能夠?yàn)門S流計(jì)算調(diào)度,我們使用一個(gè)圖神經(jīng)網(wǎng)絡(luò)(GNN)來表達(dá)全局網(wǎng)絡(luò)特征,比如網(wǎng)絡(luò)節(jié)點(diǎn)間的可達(dá)性信息,這使得調(diào)度方法能夠在不依賴大量提前計(jì)算好的信息的情況下從網(wǎng)絡(luò)拓?fù)渥兓谢謴?fù),DRLS的訓(xùn)練對于其可可調(diào)度性來說也是至關(guān)重要的,所有的動(dòng)作決策需要和其獎(jiǎng)勵(lì)值一起存儲在經(jīng)歷池中,這些經(jīng)歷會被用來訓(xùn)練主體(agent)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110257321.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





