日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于深度強化學習的網絡資源調度方法及系統有效

專利信息
申請號: 202110485657.1 申請日: 2021-04-30
公開(公告)號: CN113254197B 公開(公告)日: 2023-02-03
發明(設計)人: 何先燈;葉劍;權風光;易運暉;陳南;朱暢華 申請(專利權)人: 西安電子科技大學
主分類號: G06F9/50 分類號: G06F9/50;G06F9/48;G06N3/045;G06N3/08
代理公司: 西安長和專利代理有限公司 61227 代理人: 黃偉洪
地址: 710071 陜西省*** 國省代碼: 陜西;61
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 深度 強化 學習 網絡資源 調度 方法 系統
【權利要求書】:

1.一種基于深度強化學習的網絡資源調度方法,其特征在于,所述的基于深度強化學習的網絡資源調度方法,包括

步驟一,在智能調度平臺上初始化經驗回放緩存器,并設置其容量;

步驟二,對網絡資源調度策略利用隨機數初始化其動作-獎勵值函數訓練模型Q1,并以給定常數初始化其動作-獎勵值函數目標模型Q2

步驟三,利用訓練樣本,對上述兩個模型Q1和Q2進行訓練,Q1模型負責和實際網絡環境進行交互,得到交互樣本;

步驟四,在學習階段時,獎勵值由Q2模型計算得到,然后用它和Q1模型的估計值進行比較得到新的Q1獎勵值并更新Q1模型;

步驟五,每當上述步驟三和步驟四訓練完成一定輪次的迭代后,Q1模型的參數就會同步給Q2模型,繼續進行下一階段的訓練學習;

步驟六,通過步驟三~步驟五過程,目標模型Q2一段時間內固定,減少模型波動性;

步驟七,在智能調度平臺上使用經過步驟二~步驟五訓練好的目標模型進行網絡資源調度以及通信數據的分發控制;

步驟八,智能調度平臺根據通信模塊反饋數據,不斷進行步驟二~步驟五訓練-學習的過程,根據實際網絡環境不斷自適應調整;

所述步驟八中,智能調度平臺與環境的交互為離散時間馬爾可夫決策過程模型;

在離散時間智能調度平臺與環境的接口中,在t時刻,依次會發生以下事件

1)智能調度平臺觀察狀態St∈S的環境,得到觀測結果Ot∈O,其中S代表狀態空間集合,O代表觀測空間集合;

2)智能調度平臺根據觀測決定動作At∈A,其中A是動作集合;

3)環境根據智能調度平臺的動作,給予智能平臺獎勵Rt∈R,并進入下一個狀態St+1,其中R代表獎勵空間的集合;

一個時間離散化的智能調度平臺和環境之間的交互用一下數學序列表示

S0,O0,A0,R1,S1,O1,A1,R2,S2,O2,A2... (2)

在上述基礎上,假設認為獎勵Rt+1和下一個狀態St+1僅僅依賴與當前的狀態St和動作At,而不依賴于更早的狀態和動作,定義在t,從狀態St=s和動作At=a跳轉到下一狀態St+1=s'和獎勵Rt+1=r的概率為

Pr[St+1=s',Rt+1=r|St=s,At=a] (3)

對于上述馬爾可夫決策過程,定義函數p:S×R×S×A→[0,1]為馬爾可夫決策過程的動力:

p(s',r|s,a)=Pr[St+1=s',Rt+1=r|St=s,At=a] (4)

利用動力的定義,推出其他導出量,

狀態轉移概率:

給定“狀態-動作”的期望獎勵:

給定“狀態-動作-下一個狀態”的期望獎勵:

所述在馬爾可夫決策過程中,定義策略為從狀態到動作的轉移概率,對于馬爾可夫決策過程,其策略為從狀態到動作的轉移概率,其策略π:S×A→[0,1]定義為

π(a|s)=Pr[At=a|St=s],s∈S,a∈A (8)

對于動作集為連續的情況,可以用概率分布來定義策略;

對于回報Gt的定義,在連續性的任務沒有終止時間,所以Gt會包括t時刻后的所有獎勵信息,如果對未來所有的獎勵簡單求和,會導致總和往往是無窮大,針對這個問題,引入折扣的概念,定義回報為

折扣因子γ決定了在最近的獎勵和未來的獎勵間進行折中,基于回報的定義,進一步定義價值函數;對于給定的策略π,定義價值函數;

所述價值函數為:

狀態價值函數:狀態價值函數vπ(s)表示從狀態s開始采用策略π的預期回報,

vπ(s)=Eπ[Gt|St=s] (10)

動作價值函數:動作價值函數qπ(s,a)表示在狀態s采取動作a后,采用策略π的預期回報,

qπ(s,a)=Eπ[Gt|St=s,At=a] (11)

最優策略和最優價值函數:對于一個動力,存在一個策略π*使得所有策略的回報都小于等于這個策略,此時這個策略π*被稱作最優策略;最有優價值函數具有一個重要的信息-Bellman最優方程,Bellman最優方程求解最優價值函數;

所述Bellman最優方程有以下兩個部分:

A、用最優動作價值函數表示最優狀態價值函數

vπ(s)=maxq*(s,a),s∈S (12)

B、用最優狀態價值函數表示最優動作價值函數

Q學習(Q-learning)是一種的基礎強化學習算法,它使用二維表格來記錄智能體的環境-動作-獎勵值的之間的映射關系,表格的行、列、單元格分別對應著環境狀態S、可執行動作A、當前環境狀態S下選擇動作A得到估計Q值;

當智能體需要根據當前環境狀態選擇動作,將計算所有動作的Q值,根據計算出來Q值選擇下一個執行動作,Q-learning中Q值更新表達式定義如公式(14)所示:

Q(St,At)←Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)-Q(St,At)] (14)

其中α∈(0,1],α表示學習率,值越大表示越重視當前訓練的結果;γ∈[0,1],γ是折扣因子表示對信息的學習程度,值越大表示越重視以往的經驗;

Q-learning采用表格形式來表示從環境獲取的狀態以及可選擇的動作,故又稱之為表格型強化學習,表格行列數有限;

對于環境狀態集合S、選擇動作集合A和值函數集合Q,存在S×A→Q這樣的映射關系,將求解值函數的問題轉化為監督學習形式;使用神經網絡來充當Q-learning的查詢表,將深度學習引入到強化學習中,從而開創了深度強化學習模型DQN理論;

在Q-learning中,通過當前時刻的回報和下一時刻的Q值估計進行更新,由于數據本身存在著不穩定性,每一輪迭代都可能產生一些波動,這些波動會立刻反映到下一個迭代的計算中,引入目標網絡DQN算法;

DQN算法使用目標神經網絡與評估神經網絡雙網絡架構,初始化時在原有的Q評估網絡基礎上,又搭建了結構相同的Q-target目標網絡,通過最小化誤差函數來更新神經網絡權重值參數w,DQN算法基于Q學習理論來定義Loss函數:

L(w)=E[(r+γmaxa'Qeval(s',a';w')-Qeval(s,a;w))2] (15)

在初始參數w0已知的條件下,由公式(15)有:

通過優化目標最小化Loss函數得到w1,類推最終實現參數w收斂:

沿著Loss函數對w的梯度反方向來更新w,就能有機會減小損失,因此利用隨機梯度下降法不斷更新神經網絡權重值w完成訓練過程,最終可得到最優價值函數:

其中,參數w更新公式為:

在DQN資源調度模型訓練學習過程中,評估網絡每次訓練后都更新神經網絡權重值w,它使用最新權重值w來評估當前狀態動作對應的值函數Q(s,a;w);目標網絡在評估網絡權重值w完成一定次數的更新后,將評估網絡的權重值w賦給目標網絡的權重值w-,接著進行下一批更新;目標網絡在沒有變化的一段時間內回報的估計值是相對固定的;強化學習通過內部智能體在外部環境交互過程中不斷試錯,通過最大化積累函數來實現最優決策,是一種無監督的機器學習方法;在通信網絡資源調度時,根據當前智能體對網絡狀態的觀測,為不同網絡業務流傳輸分配網絡帶寬資源也就是選擇行為,同時得到該行為的期望累計獎勵,為后續決策和行動的選擇提供依據,強化學習DQN算法消除樣本之間的相關性,使模型具有穩定的收斂性,引入了經驗回放機制,使用經驗庫T來學習之前的經歷實現經驗回放,學習當前經歷以及過去的經歷,并且對其他智能體的經歷進行學習,是一種離線學習法;在t時刻智能體與環境交互得到轉移樣本(st,at,rt,st+1)并存儲到經驗庫,當經過一定時間的交互過程后,經驗庫中存儲一定數量的樣本,然后隨機抽取一批樣本進行訓練;經驗回放可以消除轉移樣本時間的相關性,使得樣本更符合獨立同分布條件,減少參數更新的方差,加快收斂;

結合DQN深度強化學習算法的網絡資源調度機制需要明確環境的調度空間、調度選擇的動作空以及資源調度的獎勵函數;選擇合適的環境狀態空間對強化學習DQN算法非常重要;將網絡傳輸帶寬作為網絡狀態環境,通過通信模塊獲取當前用戶通信業務狀態,包括緊急通話業務、短消息通信業務、語音通信業務和多媒體通信業務,定義環境的狀態空間為:

S=[TB,EC,MC,VC,SC] (19)

其中TB表示實時網絡可用的帶寬資源,EC、MC、VC、SC分別是緊急通話、短消息通信、語音通信、多媒體通信請求占據傳輸帶寬;

對當前通信系統中網絡資源進行調度的決策動作空間可以表示為:

A=[EB,MB,VB,SB] (20)

其中EB、MB、VB、SB對應網絡資源調度模塊為緊急通信、短消息通信、語音通信、多媒體通信分配的網絡帶寬資源。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202110485657.1/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 久久99精品国产麻豆婷婷洗澡| 99欧美精品| 亚洲精品suv精品一区二区| 欧美精品一区久久| 一本一道久久a久久精品综合蜜臀| 性国产videofree极品| 国产精品亚洲а∨天堂123bt| 国产欧美日韩另类| 亚洲w码欧洲s码免费| 国产视频一区二区在线播放| 少妇又紧又色又爽又刺激的视频 | 色一情一乱一乱一区免费网站| 国产一区日韩在线| 亚洲乱小说| 久久免费视频一区| 国产欧美一区二区三区免费 | 国产欧美一区二区三区不卡高清| 日韩一级视频在线| 国产白丝一区二区三区| 国产精品亚发布| 久久一二区| 满春阁精品av在线导航| 91波多野结衣| 日韩精品人成在线播放| 国产黄色网址大全| 丰满岳乱妇在线观看中字| 人人澡超碰碰97碰碰碰| 亚洲乱小说| 欧美极品少妇| 欧美日韩综合一区二区| 亚洲欧美色图在线| 欧美亚洲视频一区| 国产不卡一区在线| 日韩欧美国产中文字幕| 国产性生交xxxxx免费| 国产69精品久久久久按摩 | 超碰97国产精品人人cao| 毛片大全免费看| 国产日韩欧美三级| 欧美日韩国产色综合一二三四| 精品国产鲁一鲁一区二区三区| 色噜噜狠狠色综合中文字幕| 国产日韩欧美精品| av中文字幕一区二区| 日韩av在线影院| 亚洲精品人| 97视频一区| 精品国产一区二区三区麻豆免费观看完整版 | 日韩精品免费一区二区在线观看| 日本午夜影视| 亚洲精品久久久久久久久久久久久久 | 国产精品久久久不卡| 91麻豆精品国产91久久久无限制版| 91精品国产高清一区二区三区 | 国产视频精品久久| 久久精品国产亚洲7777| 国产清纯白嫩初高生视频在线观看| 国产精品久久久不卡| 国产69精品久久久久777糖心| 97视频一区| 日韩精品中文字幕在线| 精品国产乱码久久久久久a丨| 国产精品电影一区二区三区| 欧美激情国产一区| 7777久久久国产精品| 国产乱对白刺激在线视频| 91超薄丝袜肉丝一区二区| 午夜激情综合网| 欧美在线视频三区| 一区二区精品在线| 香港日本韩国三级少妇在线观看 | 日本午夜久久| 国产伦精品一区二区三区免费观看| 欧美日韩一区在线视频| 97视频一区| 国产91在| 欧美日韩国产91| 国产一区二区在线免费| 欧美在线视频二区| 国产精品日韩一区二区三区| 欧美三区二区一区| 91精品综合在线观看| 处破大全欧美破苞二十三| 影音先锋久久久| 91理论片午午伦夜理片久久| 玖玖玖国产精品| 二区三区免费视频| 日韩精品一区二区三区四区在线观看| 国产床戏无遮挡免费观看网站| 日韩一区免费| 久久99精品久久久久国产越南 | 国产精品v一区二区三区| 99精品国产一区二区三区麻豆 | 日本精品一区二区三区在线观看视频 | 久久影视一区二区| 精品久久久久久久免费看女人毛片| 狠狠色丁香久久综合频道 | 性欧美激情日韩精品七区| 激情久久精品| 欧美一区二区激情三区| 午夜生活理论片| 高清欧美精品xxxxx| 国产精品电影一区二区三区| 亚洲高清国产精品| 蜜臀久久99精品久久一区二区| 中文字幕日本精品一区二区三区| 欧美精品xxxxx| 性国产日韩欧美一区二区在线| 国产一区二| 免费午夜片| 狠狠色噜噜狠狠狠合久| 狠狠插狠狠爱| 日韩av在线免费电影| 国产精品一区二区三| 中文字幕在线播放一区| 国产一区欧美一区| 午夜一级电影| 国产二区免费| 国产精品区一区二区三| 一区二区三区在线影院| 国产一区二区在线精品| 久久精品一二三| 国产日韩一区在线| 狠狠色狠狠综合久久| 国产69精品久久久久9999不卡免费 | 日本一区二区三区电影免费观看| 日韩精品中文字幕在线播放| 日本一区二区三区在线视频| 日本亚洲国产精品| 国产极品一区二区三区| 91久久国产露脸精品国产护士| 欧美精品亚洲一区| 一区二区免费在线观看| 色妞www精品视频| 91麻豆精品国产91久久| 午夜黄色网址| 国产精品免费专区| 色综合欧美亚洲国产| 强制中出し~大桥未久4| 国产伦精品一区二区三区电影| 销魂美女一区二区| 亚洲午夜国产一区99re久久| 在线精品国产一区二区三区| 欧美乱大交xxxxx| 麻豆精品久久久| 一区二区中文字幕在线| 久久99久久99精品免观看软件| 国产精品亚洲二区| 激情aⅴ欧美一区二区三区| 亚洲欧美视频一区二区| 色狠狠色狠狠综合| 88国产精品欧美一区二区三区三| 亚洲国产精品第一区二区| 福利电影一区二区三区| 欧美在线视频二区| 亚洲欧美国产中文字幕| 激情久久久| 国产99久久九九精品免费| 亚洲欧洲日韩| xxxx18hd护士hd护士| 久久精品综合| 欧美资源一区| 国产精品高清一区| 国产精品视频一区二区在线观看 | 国产精品视频久久久久久| 制服丝袜二区| 国产精品视频1区2区3区| 久久午夜精品福利一区二区| 午夜国产一区二区| 国产一区二区精品免费| 狠狠色噜噜狠狠狠狠色吗综合| 国产精品一二三四五区| 日本高清h色视频在线观看| 欧美三级午夜理伦三级老人| 国产精品偷拍| 中文字幕日本一区二区| 国产欧美日韩综合精品一| 91丝袜国产在线观看| 电影午夜精品一区二区三区| 欧美一区二粉嫩精品国产一线天| 精品国产免费一区二区三区| 综合久久一区| 国产天堂第一区| 激情aⅴ欧美一区二区三区| 欧洲在线一区| 欧美日韩综合一区| 国产一区二区手机在线观看| 亚洲福利视频一区二区| 日韩精品一区二区不卡| 久久两性视频| 九九视频69精品视频秋欲浓 | 精品无码久久久久国产| 国产清纯白嫩初高生在线观看性色| 狠狠色丁香久久综合频道| 久久99精品国产| 国产高清在线精品一区二区三区| 91久久免费| 久久天天躁夜夜躁狠狠躁2022| 亚洲午夜国产一区99re久久| 少妇厨房与子伦免费观看| 综合久久国产九一剧情麻豆| 扒丝袜网www午夜一区二区三区| 夜夜夜夜夜猛噜噜噜噜噜gg| 狠狠躁日日躁狂躁夜夜躁| 999久久久国产| 欧美国产精品久久| 久久精品综合视频| 8x8x国产一区二区三区精品推荐 | 精品999久久久| 一区二区精品在线| 久久九九亚洲| 99精品小视频| 93久久精品日日躁夜夜躁欧美| 在线观看国产91| 国产91在| 日韩中文字幕久久久97都市激情| 日韩精品一区二区三区四区在线观看| 小萝莉av| 午夜电影院理论片做爰| 亚洲精品久久久久玩吗| 国产在线视频99| 国产一区二区午夜| 欧美在线视频一二三区| 国产欧美日韩在线观看| 久久免费视频一区| 麻豆天堂网| 日本免费电影一区二区| 中文字幕久久精品一区| 午夜爱爱电影| 国产91一区二区在线观看| 精品久久二区| 国产欧美久久一区二区三区| 久久久久亚洲最大xxxx| 一区二区不卡在线| 日本一区二区三区四区高清视频| 午夜看片在线| 国产欧美一区二区三区免费视频| 国产乱老一区视频| 国产在线一卡| 国产91九色在线播放| 欧美一区二区久久| 性old老妇做受| 精品久久久久久中文字幕大豆网 | 少妇中文字幕乱码亚洲影视| 久久久久亚洲精品视频| 国产偷自视频区视频一区二区|