[發(fā)明專利]基于深度強化學(xué)習的無人機軌跡優(yōu)化方法、裝置和無人機有效
| 申請?zhí)枺?/td> | 201910697007.6 | 申請日: | 2019-07-30 |
| 公開(公告)號: | CN110488861B | 公開(公告)日: | 2020-08-28 |
| 發(fā)明(設(shè)計)人: | 許文俊;徐越;吳思雷;張治;張平;林家儒 | 申請(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 李翔 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強化 學(xué)習 無人機 軌跡 優(yōu)化 方法 裝置 | ||
1.基于深度強化學(xué)習的無人機軌跡優(yōu)化方法,其特征在于,包括如下步驟:
預(yù)先構(gòu)建基于PPO算法的深度強化學(xué)習網(wǎng)絡(luò);
在無人機飛行過程中實時與環(huán)境交互,產(chǎn)生狀態(tài)數(shù)據(jù)、動作決策數(shù)據(jù),并計算瞬時能量效率;其中,計算瞬時能量效率,包括按下式計算:
r(st,at)表示無人機在t時刻狀態(tài)為st、動作為at時的瞬時能量效率;為在t時刻物聯(lián)網(wǎng)設(shè)備u向無人機傳送數(shù)據(jù)的最大傳輸速率;表示自身剩余能量,st表示無人機在t時刻的狀態(tài),at表示無人機在t時刻的動作;
以所述狀態(tài)數(shù)據(jù)為輸入、以所述動作決策數(shù)據(jù)為輸出,以所述瞬時能量效率為獎勵回報,利用PPO算法對所述深度強化學(xué)習網(wǎng)絡(luò)進行訓(xùn)練,優(yōu)化策略參數(shù),經(jīng)過多次迭代更新,輸出最優(yōu)策略;
其中,利用PPO算法對所述深度強化學(xué)習網(wǎng)絡(luò)進行訓(xùn)練,優(yōu)化策略參數(shù),經(jīng)過多次迭代更新,輸出最優(yōu)策略,包括:
采用PPO算法,將目標方程改寫為:
其中θ為待優(yōu)化的策略參數(shù),ε為預(yù)設(shè)的用于控制策略更新幅度的常數(shù),為時刻t的期望值,表示優(yōu)勢函數(shù),clip表示裁剪函數(shù),rt(θ)是一次迭代更新中舊策略函數(shù)和新策略函數(shù)的比值,可表示為:
其中πθ表示策略函數(shù),πθ(at|st)表示t時刻狀態(tài)為st、動作為at的新策略函數(shù),表示t時刻狀態(tài)為st、動作為at的舊策略函數(shù);
求取的優(yōu)勢函數(shù)方程為:
其中γ為衰減指數(shù),λ為徑跡參數(shù);δt為t時刻的時間差分錯誤值,δT-1為T-1時刻的時間差分錯誤值;T為自主飛行總時長;
通過多次迭代更新,求取所述目標方程最大值,以優(yōu)化策略函數(shù)中的策略參數(shù),將所述目標方程最大值對應(yīng)的策略參數(shù)作為最優(yōu)策略輸出。
2.根據(jù)權(quán)利要求1所述的基于深度強化學(xué)習的無人機軌跡優(yōu)化方法,其特征在于,所述步驟預(yù)先構(gòu)建基于PPO算法的深度強化學(xué)習網(wǎng)絡(luò),包括:
構(gòu)建包括行動網(wǎng)絡(luò)和評價網(wǎng)絡(luò)的深度學(xué)習網(wǎng)絡(luò)結(jié)構(gòu);
所述行動網(wǎng)絡(luò)利用PPO算法和深度神經(jīng)網(wǎng)絡(luò)來擬合策略函數(shù),決策飛行動作;所述評價網(wǎng)絡(luò)利用深度神經(jīng)網(wǎng)絡(luò)來擬合狀態(tài)價值函數(shù),優(yōu)化所述策略函數(shù)中的策略參數(shù)。
3.根據(jù)權(quán)利要求1所述的基于深度強化學(xué)習的無人機軌跡優(yōu)化方法,其特征在于,所述步驟產(chǎn)生狀態(tài)數(shù)據(jù)、動作決策數(shù)據(jù),包括:
計算所述無人機與物聯(lián)網(wǎng)設(shè)備間的距離、傳輸速率和自身剩余能量,作為狀態(tài)數(shù)據(jù);
采集所述無人機的加速度、飛行方向,作為動作決策數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的基于深度強化學(xué)習的無人機軌跡優(yōu)化方法,其特征在于,所述步驟產(chǎn)生狀態(tài)數(shù)據(jù)、動作決策數(shù)據(jù),包括:
將所述狀態(tài)數(shù)據(jù)量化表示為其中φ(st)表示狀態(tài)數(shù)據(jù)矩陣,st表示t時刻的狀態(tài),分別表示在t時刻第1至第N個物聯(lián)網(wǎng)設(shè)備與無人機的歐式距離;分別表示在t時刻第1至第N個物聯(lián)網(wǎng)設(shè)備向無人機傳送信息的傳輸速率;表示無人機在t時刻的自身剩余能量;
將所述動作決策數(shù)據(jù)表示為at=[ωt,at]T;其中at表示在t時刻的動作;ωt∈[0,2π],ωt表示在t時刻無人機的飛行操縱角度;at表示在t時刻無人機的加速度大小,at為連續(xù)有界數(shù)據(jù)。
5.根據(jù)權(quán)利要求1-4任一項所述的基于深度強化學(xué)習的無人機軌跡優(yōu)化方法,其特征在于,所述步驟計算瞬時能量效率,包括:
在無人機返回途中發(fā)生能源耗盡情況時,在計算瞬時能量效率的方程后添加預(yù)設(shè)數(shù)值的懲罰項。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910697007.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習效果動態(tài)變化下載學(xué)習數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習服務(wù)的方法
- 漸進式學(xué)習管理方法及漸進式學(xué)習系統(tǒng)
- 輔助學(xué)習的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習的自適應(yīng)移動學(xué)習路徑生成方法
- 一種線上視頻學(xué)習系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習方法、裝置及設(shè)備
- 一種學(xué)習方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習效果評測方法及系統(tǒng)





