[發(fā)明專利]一種基于聯(lián)邦學習的高效設備選擇與資源分配方法在審
| 申請?zhí)枺?/td> | 202210236158.3 | 申請日: | 2022-03-04 |
| 公開(公告)號: | CN114598667A | 公開(公告)日: | 2022-06-07 |
| 發(fā)明(設計)人: | 唐倫;汪智平;蒲昊;陳前斌 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | H04L47/783 | 分類號: | H04L47/783;H04L67/1023;H04L67/12;G06N20/20 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 廖曦 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聯(lián)邦 學習 高效 設備 選擇 資源 分配 方法 | ||
1.一種基于聯(lián)邦學習的高效設備選擇與資源分配方法,其特征在于:包括以下步驟:
S1:初始化參數(shù):在集中訓練階段開始時,初始化所有邊緣智能體的行動者和批評家網絡的參數(shù),并按照學習步驟進行更新,另外,一個經驗回放池被實例化;
S2:經驗抽樣:采用基于經驗回放技術的off-policy技術,部署一個具有一定內存容量的體驗重放池,在采樣階段,所有邊緣智能體的經驗都存儲在其中,在訓練階段,每個邊緣智能體從經驗池中隨機抽取一批經驗,以非策略的方式對網絡參數(shù)進行訓練;
S3:參數(shù)更新:在參數(shù)更新階段,邊緣智能體被協(xié)調起來,在從所有個體環(huán)境中收集的經驗與當前代理的策略之間進行交替更新,并且基于初始經驗池中采樣的批量經驗池中轉化多維元組中更新參數(shù);
S4:將步驟S3中更新完成的參數(shù)用于智能體目標網絡更新,并獲得全局最佳聯(lián)合決策。
2.根據(jù)權利要求1所述的一種基于聯(lián)邦學習的高效設備選擇與資源分配方法,其特征在于:步驟S1中,各個所述邊緣智能體分別在其對應的邊緣控制器上運行,采用集中訓練,分散執(zhí)行的機制,每個邊緣智能體只能從它所處的個體環(huán)境中觀察到局部信息,其所做的決策對其他邊緣智能體是不敏感的。
3.根據(jù)權利要求2所述的一種基于聯(lián)邦學習的高效設備選擇與資源分配方法,其特征在于:在集中訓練階段,所述邊緣智能體相互獲取其他邊緣智能體的信息,包括所有邊緣智能體的狀態(tài)和動作;邊緣智能體的行動者網絡僅從自身觀察到的局部狀態(tài)信息中捕獲環(huán)境動態(tài),然后針對單個環(huán)境做出決策;邊緣智能體的批評家網絡通過所有邊緣主體的行為-狀態(tài)對來生成Q值來評估決策;在去中心化執(zhí)行階段,邊緣智能體的行動者和批評家的網絡參數(shù)不再更新。
4.根據(jù)權利要求1所述的一種基于聯(lián)邦學習的高效設備選擇與資源分配方法,其特征在于:步驟S2中,邊緣智能體的經驗用所選動作、狀態(tài)轉移和反饋獎勵的多維元組表示,并由以下步驟得到:
S21:每個邊緣智能體分別從各自的環(huán)境中觀察本地狀態(tài)信息;
S22:智能體的行動者網絡根據(jù)本地信息獨立地用自己的策略生成決策;
S23:智能體獲得獎勵,并且個體環(huán)境演化到下一個狀態(tài);
S24:將公式化的轉換元組存儲在經驗回放池中,用于算法參數(shù)更新。
5.根據(jù)權利要求1所述的一種基于聯(lián)邦學習的高效設備選擇與資源分配方法,其特征在于:步驟S3中,采用最大熵強化學習方法,其要求行動者網絡同時最大化期望和策略分布的熵,在保證任務成果的同時希望策略盡可能的隨機;
每個邊緣智能體的行動者-批評家體系結構由一個行動者網絡、一對評價批評家網絡和一對目標批評家網絡組成;行動者網絡用自己的策略生成動作,批評家網絡分別計算一對Q值來評估所述行動者網絡的策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210236158.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于紙芯片螺絲狀金屬硫化物復合材料的制備方法
- 下一篇:醫(yī)療器械支架





