[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)多信道分布式深度學(xué)習(xí)方法在審
| 申請?zhí)枺?/td> | 202210322064.8 | 申請日: | 2022-03-29 |
| 公開(公告)號: | CN114924868A | 公開(公告)日: | 2022-08-19 |
| 發(fā)明(設(shè)計(jì))人: | 杜海舟;馮曉杰 | 申請(專利權(quán))人: | 上海電力大學(xué) |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06N3/08 |
| 代理公司: | 南京禹為知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 32272 | 代理人: | 馬建軍 |
| 地址: | 201306 上*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 自適應(yīng) 信道 分布式 深度 學(xué)習(xí)方法 | ||
1.一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)多信道分布式深度學(xué)習(xí)方法,其特征在于:包括如下步驟,
建立基于強(qiáng)化學(xué)習(xí)的自適應(yīng)多信道分布式深度學(xué)習(xí)框架;
框架內(nèi)部每個(gè)設(shè)備計(jì)算局部梯度;
框架內(nèi)部的壓縮器壓縮梯度;
通過多個(gè)通道將壓縮梯度的編碼層發(fā)送到邊緣服務(wù)器;
服務(wù)器接收所有客戶端的梯度數(shù)據(jù)并進(jìn)行結(jié)果計(jì)算,而后發(fā)送至框架內(nèi)所有設(shè)備;
每個(gè)設(shè)備使用更新后結(jié)果數(shù)據(jù)更新本地模型。
2.如權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自適應(yīng)多信道分布式深度學(xué)習(xí)方法,其特征在于:自適應(yīng)多信道分布式深度學(xué)習(xí)框架包含邊緣服務(wù)器和若干個(gè)設(shè)備,若干個(gè)設(shè)備通過迭代計(jì)算和通信與邊緣服務(wù)器協(xié)作訓(xùn)練學(xué)習(xí)模型。
3.如權(quán)利要求1或2所述的基于強(qiáng)化學(xué)習(xí)的自適應(yīng)多信道分布式深度學(xué)習(xí)方法,其特征在于:在進(jìn)行數(shù)據(jù)傳輸之前,自適應(yīng)多信道分布式深度學(xué)習(xí)框架在進(jìn)行信息傳輸之前壓縮本地計(jì)算的梯度,并通過多個(gè)通道發(fā)送給各個(gè)設(shè)備。
4.如權(quán)利要求3所述的基于強(qiáng)化學(xué)習(xí)的自適應(yīng)多信道分布式深度學(xué)習(xí)方法,其特征在于:利用Topk運(yùn)算符壓縮梯度,將Topk擴(kuò)展到Topα,β(1≤α<β≤D),以獲得稀疏的top-(α,β)梯度。具體來說,對于向量和Topα,β(x)的i(i=1,2,...,D)個(gè)元素被定義為:
其中xi是x的第i個(gè)元素,thrα是x中元素的第α最大絕對值,thrβ是x中元素的第β大絕對值。
5.如權(quán)利要求4所述的基于強(qiáng)化學(xué)習(xí)的自適應(yīng)多信道分布式深度學(xué)習(xí)方法,其特征在于:需要連接到C個(gè)通道的設(shè)備,這些通道之間的流量分配由向量表示,設(shè)備使用Topα,β壓縮器將漸變元素編碼到不同的層中,并獲取
而后每個(gè)層通過不同的通道發(fā)送到服務(wù)器。
6.如權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自適應(yīng)多信道分布式深度學(xué)習(xí)方法,其特征在于:制定資源約束下最小化全局損失的函數(shù):
使得,
其中是設(shè)備m在t輪迭代對于r資源本地計(jì)算的總資源消耗和是設(shè)備m在t輪迭代對于r資源的通信消耗系數(shù),表示設(shè)備m在t輪通信時(shí)的本地更新步驟數(shù),表示在t輪通信時(shí)設(shè)備m的通道n處的流量分配,Bm,r表示設(shè)備m中的資源r的總預(yù)算。
7.如權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自適應(yīng)多信道分布式深度學(xué)習(xí)方法,其特征在于:服務(wù)器建立深度強(qiáng)化學(xué)習(xí)控制算法,并指定狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù),進(jìn)而實(shí)現(xiàn)公式化,進(jìn)行計(jì)算。
8.如權(quán)利要求7所述的基于強(qiáng)化學(xué)習(xí)的自適應(yīng)多信道分布式深度學(xué)習(xí)方法,其特征在于:公式化指定狀態(tài)空間:
每個(gè)代理的狀態(tài)都包含每種類型的資源的當(dāng)前資源消耗,狀態(tài)空間表示為并且定義
其中
狀態(tài)變量描述如下:
表示在輪次t設(shè)備m處通信資源r的消耗因子。
表示在輪次t設(shè)備m處本地計(jì)算資源r的。
9.如權(quán)利要求7所述的基于強(qiáng)化學(xué)習(xí)的自適應(yīng)多信道分布式深度學(xué)習(xí)方法,其特征在于:在每個(gè)設(shè)備m內(nèi)都指定有表示為的動(dòng)作空間,在接收狀態(tài)時(shí),代理m需要選擇其本地計(jì)算和通信決策,操作可以表示為:
其中
操作變量描述如下:
表示輪次t設(shè)備m處的本地迭代次數(shù)。
表示輪次t通過設(shè)備n的通道n的梯度分量數(shù)。
10.如權(quán)利要求7所述的基于強(qiáng)化學(xué)習(xí)的自適應(yīng)多信道分布式深度學(xué)習(xí)方法,其特征在于:將獎(jiǎng)勵(lì)函數(shù)定義為迭代輪次t時(shí)設(shè)備m處R類資源的加權(quán)平均效用函數(shù),如下所示:
其中αr是效用函數(shù)的權(quán)重。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海電力大學(xué),未經(jīng)上海電力大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210322064.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- 使用后向自適應(yīng)規(guī)則進(jìn)行整數(shù)數(shù)據(jù)的無損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗(yàn)證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺(tái)
- 采用自適應(yīng)機(jī)匣和自適應(yīng)風(fēng)扇的智能發(fā)動(dòng)機(jī)
- 一種自適應(yīng)樹木自動(dòng)涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動(dòng)機(jī)燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機(jī)頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)





