[發明專利]一種基于multi-agent強化學習的寬帶自組織網資源決策方法有效
| 申請號: | 202110551509.5 | 申請日: | 2021-05-20 |
| 公開(公告)號: | CN113301656B | 公開(公告)日: | 2022-10-04 |
| 發明(設計)人: | 張樹英;趙旭;倪祖耀;匡麟玲 | 申請(專利權)人: | 清華大學 |
| 主分類號: | H04W72/04 | 分類號: | H04W72/04;H04W84/18;G06N3/04;G06N3/08 |
| 代理公司: | 北京眾合誠成知識產權代理有限公司 11246 | 代理人: | 陳波 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 multi agent 強化 學習 寬帶 組織 資源 決策 方法 | ||
本發明公開了一種基于multi?agent深度強化學習的寬帶自組織網絡無線資源決策方法,首先,利用相同無線資源傳輸不同占比節點業務對全網所產生的價值不同這一特性來建立資源決策問題的約束優化模型。然后,將該模型轉化為multi?agent強化學習決策過程,從而構建了基于該模型的多用戶分布式無線資源決策的深度學習框架,用所提出模型的優化目標作為獎勵對所有agent進行集中訓練。最后,通過將該深度學習框架訓練的agent加載到網絡對應的分布式節點上進行分布式執行,實現了各節點僅依賴局部信息就能實現具有全局意識的無線資源決策。
本發明涉及一種基于multi-agent深度強化學習的寬帶自組織網絡無線資源決策方法,屬于無線自組織網絡資源決策領域。
背景技術
隨著移動通信技術的不斷發展和人們對通信內容要求越來越高,具有大容量、高傳輸速率,不依賴地面固定基礎設施的寬帶移動自組織網絡受到軍事戰術網、應急通信、車聯網等諸多重要領域的關注。在該網絡中,各節點依賴于開放共享的無線資源進行業務傳輸,而由于沒有中心節點調度,使得全網對于無線資源的利用要么存在沖突要么效率低下。
在傳統基于競爭的方式中,各節點自私地去搶占無線資源、不考慮其他用戶的業務需求情況和全網的效益,即便在基于TDMA的分布式調度方式中,各節點對于無線資源的動態調度也缺乏全局意識。若使各節點收集全局信息來實現基于全網效益最大化的無線資源使用,則將需要大量的信息交互,從而使無線資源利用率大幅下降。因此,使各節點依賴盡量少的信息交互,來實現具有全局意識的無線資源分配效果,是寬帶移動自組織網絡面臨的關鍵挑戰之一。考慮到深度強化學習中神經網絡具有的記憶性和泛化能力,本發明將每個節點看作一個agent,提出一個新穎的全局效益最大化目標,將其作為獎勵來對所有agent進行集中訓練,從而賦予了各節點在分布式執行時僅根據局部信息便具有全局優化意識的能力。
本發明的目的是為了解決傳統自組織網絡中無線資源利用效率低且缺乏全局意識的問題,相比于以往方案中各節點僅根據自己的業務需求來進行無線資源的預定,本發明進一步關注各節點業務負載全網占比差異。本發明提出一種基于multi-agent深度強化學習的寬帶自組織網絡無線資源決策方法,通過使用一個考慮全局效益最大化的目標去集中訓練所有agent,并將訓練好的agent加載到對應網絡節點中進行分布執行,以達到各節點僅依賴局部信息便可進行具有全局意識的無線資源決策的效果。
發明內容
本發明提供了一種基于multi-agent深度強化學習的寬帶自組織網絡無線資源決策方法,包括以下步驟:
步驟一、建立基于業務負載全網占比差異的資源決策問題約束優化模型;
步驟二、構建multi-agent無線資源決策的深度強化學習框架,具體是,將步驟一中所建立的約束優化模型轉化為multi-agent強化學習決策過程,從而構建了基于所述約束優化模型的多用戶分布式無線資源決策的深度學習框架;
步驟三、用所述約束優化模型的優化目標作為獎勵,對所有agent進行集中訓練;
步驟四、通過將步驟二中所構建的深度學習框架訓練的agent加載到網絡對應的分布式節點上進行分布式執行,從而實現了各節點僅依賴局部信息就能實現具有全局意識的無線資源決策。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110551509.5/2.html,轉載請聲明來源鉆瓜專利網。





