[發(fā)明專利]基于分布式PPO算法的自適應(yīng)連續(xù)功率控制方法有效
| 申請?zhí)枺?/td> | 202110469413.4 | 申請日: | 2021-04-28 |
| 公開(公告)號: | CN113191487B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計)人: | 謝顯中;范子申 | 申請(專利權(quán))人: | 重慶郵電大學 |
| 主分類號: | G06N3/045 | 分類號: | G06N3/045;G06N3/08;G06N20/00 |
| 代理公司: | 北京同恒源知識產(chǎn)權(quán)代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 分布式 ppo 算法 自適應(yīng) 連續(xù) 功率 控制 方法 | ||
本發(fā)明涉及一種基于分布式PPO算法的自適應(yīng)連續(xù)功率控制方法,屬于深度強化學習領(lǐng)域,包括S1:首先用多個線程代表多個副網(wǎng)絡(luò),多個副網(wǎng)絡(luò)共享一個全局PPO網(wǎng)絡(luò)策略參數(shù),對所有參數(shù)進行初始化;S2:多個線程并發(fā)地執(zhí)行全局PPO網(wǎng)絡(luò)的策略,平行在各自不同的環(huán)境中去收集一定批量的數(shù)據(jù)信息;S3:多個線程將收集到的樣本數(shù)據(jù)傳送給全局PPO網(wǎng)絡(luò),多個線程停止收集樣本數(shù)據(jù);S4:全局PPO網(wǎng)絡(luò)根據(jù)多個線程傳遞過來的樣本數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),更新策略參數(shù);S5:全局PPO網(wǎng)絡(luò)更新參數(shù)后,停止更新參數(shù),并控制多個線程繼續(xù)并發(fā)地收集樣本數(shù)據(jù)信息,然后重復(fù)步驟S4,直到任務(wù)結(jié)束。
技術(shù)領(lǐng)域
本發(fā)明屬于深度強化學習領(lǐng)域,涉及一種基于分布式PPO算法的自適應(yīng)連續(xù)功率控制方法。
背景技術(shù)
在文獻Proximal?Policy?Optimization?Based?Continuous?Intelligent?PowerControl?in?Cognitive?Radio?Network中,利用了一種基于策略的深度強化學習算法,近端策略優(yōu)化算法(Proximal?Policy?Optimization,PPO)算法來幫助認知無線網(wǎng)絡(luò)中的次級用戶實現(xiàn)自適應(yīng)的連續(xù)功率控制,從而共享主用戶的頻譜資源,實現(xiàn)主用戶和自己的成功通信。
PPO算法是一種基于AC框架的深度強化學習算法,具有人工神經(jīng)網(wǎng)絡(luò)的PPO算法可以處理無限的狀態(tài)空間環(huán)境,而且它是基于策略的方法,可以處理無限的動作空間,很符合本文提出的在復(fù)雜環(huán)境中實現(xiàn)次級用戶智能連續(xù)功率控制,以便共享主用戶頻譜資源的目標。
PPO算法主要比較好的解決了傳統(tǒng)基于策略的方法中對更新步數(shù)敏感和網(wǎng)絡(luò)更新效率過慢的問題。這主要是PPO算法采用了重要性采樣的方法將on-policy的方法轉(zhuǎn)變?yōu)榱薿ff-policy的方法,可以反復(fù)使用經(jīng)驗數(shù)據(jù),提升了網(wǎng)絡(luò)的更新效率,并且通過加入限制更新步長的方法,解決了策略方法對更新步長過于敏感的問題。傳統(tǒng)的策略方法是用一個網(wǎng)絡(luò)θ執(zhí)行參數(shù)化后的策略πθ去與環(huán)境交互,采樣數(shù)據(jù)和訓(xùn)練網(wǎng)絡(luò),當這個網(wǎng)絡(luò)的參數(shù)更新后,以前根據(jù)這個策略采集到的數(shù)據(jù)不能再用來訓(xùn)練這個網(wǎng)絡(luò),需要用新的策略重新采樣數(shù)據(jù),這就會導(dǎo)致網(wǎng)絡(luò)對樣本信息的利用率不高,參數(shù)更新效率很低,造成巨大的時間消耗。重要性采樣的方法是構(gòu)建一個輸出動作概率分布與網(wǎng)絡(luò)θ很相近的網(wǎng)絡(luò)θ'去與環(huán)境交互采用樣本數(shù)據(jù),然后執(zhí)行策略πθ'去訓(xùn)練網(wǎng)絡(luò)θ若干次,由于網(wǎng)絡(luò)θ'的參數(shù)是固定不變的,因此實現(xiàn)了對采樣數(shù)據(jù)的重復(fù)利用,提高了網(wǎng)絡(luò)的更新效率。在傳統(tǒng)的策略梯度方法中,梯度計算公式為:
采用重要性采樣的方法后,可以將(1)式變?yōu)椋?/p>
于是得到了新的基于PPO算法的目標函數(shù):
其中Jθ′(θ)代表的含義與環(huán)境互動的網(wǎng)絡(luò)θ'更新網(wǎng)絡(luò)θ。這樣就將on-policy的方法轉(zhuǎn)換為了off-policy的方法,可以實現(xiàn)對采樣數(shù)據(jù)的重復(fù)利用,然而傳統(tǒng)策略方法中對更新步長敏感的問題依然存在,即如果這兩個網(wǎng)絡(luò)的輸出動作概率分布相差太遠的話,就會導(dǎo)致訓(xùn)練很難收斂,為了使這兩個網(wǎng)絡(luò)的分布不會相差太遠,PPO算法在(1.3)式中又增加了限制條件,如下所示:
式中ratiot(θ)為表示的是兩個網(wǎng)絡(luò)策略的比值,clip是裁剪函數(shù),當這兩個網(wǎng)絡(luò)的動作概率分布相差太遠則進行裁剪,即當ratiot(θ)的值小于1-ε,則取1-ε;如果ratiot(θ)的值大于1+ε,則取1+ε,一般ε的值為0.1或0.2。這樣就可以有效的防止過大的更新,解決了策略方法對更新步長敏感的問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學,未經(jīng)重慶郵電大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110469413.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





