[發(fā)明專利]一種基于強化學(xué)習(xí)PPO算法的無人機目標(biāo)跟蹤控制方法有效
| 申請?zhí)枺?/td> | 202010216559.3 | 申請日: | 2020-03-25 |
| 公開(公告)號: | CN111580544B | 公開(公告)日: | 2021-05-07 |
| 發(fā)明(設(shè)計)人: | 蔡志浩;李明君;趙江;王英勛 | 申請(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 北京航智知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11668 | 代理人: | 陳磊;張楨 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強化 學(xué)習(xí) ppo 算法 無人機 目標(biāo) 跟蹤 控制 方法 | ||
1.一種基于強化學(xué)習(xí)PPO算法的無人機目標(biāo)跟蹤控制方法,其特征在于,包括以下步驟:
S1:無人機目標(biāo)跟蹤過程的典型環(huán)境建模;
針對無人機目標(biāo)跟蹤,無人機本身與被跟蹤目標(biāo)相對于整個動態(tài)環(huán)境視為質(zhì)點,同時無人機跟蹤目標(biāo)的過程與縱向空間無關(guān),無人機與跟蹤目標(biāo)在空間中的相對位置能夠投影到二維平面,故無人機目標(biāo)跟蹤過程的典型環(huán)境模型簡化成如下典型形式:
記無人機的質(zhì)量為M,控制機構(gòu)作用于無人機上的直接控制量分別記為Fx與Fy,其中,F(xiàn)x為控制機構(gòu)對無人機產(chǎn)生的前向控制力,F(xiàn)y為控制機構(gòu)對無人機產(chǎn)生的側(cè)向控制力;無人機在控制機構(gòu)的作用下能夠在二位平面內(nèi)任意運動,無人機運動的數(shù)學(xué)模型為:
ax=Fx/M,ay=Fy/M,
其中,坐標(biāo)(x,y)表示無人機在環(huán)境中的位置,vx為無人機的前向速度,vy為無人機的側(cè)向速度,ax為無人機的前向加速度,ay為無人機的側(cè)向加速度,無人機的合速度為跟蹤目標(biāo)點的坐標(biāo)為(xe,ye),無人機通過自身的傳感器實時探測跟蹤目標(biāo)點的位置坐標(biāo);環(huán)境模型中限定無人機受到的前向力Fx與側(cè)向力Fy存在最大值,分別記為Fx_max和Fy_max,無人機能夠保持的最大飛行速度為vmax;
S2:訓(xùn)練數(shù)據(jù)歸一化預(yù)處理;
S2-1:典型環(huán)境模型優(yōu)化;
將目標(biāo)的隨機運動軌跡看成一個時間序列的位置坐標(biāo)點,無人機在每時刻能夠追蹤當(dāng)前目標(biāo)所處的位置,即能夠在整個時間序列上完成對目標(biāo)點位置跟蹤,故在使用PPO算法對無人機進(jìn)行目標(biāo)跟蹤訓(xùn)練時,只訓(xùn)練無人機對靜止目標(biāo)的跟蹤,將訓(xùn)練好的控制器直接應(yīng)用于隨機運動的目標(biāo)跟蹤;因此,將典型的無人機目標(biāo)跟蹤問題環(huán)境模型優(yōu)化為如下形式:將環(huán)境模型限定在總面積為4l2的正方形區(qū)域內(nèi),其中,l為正方形區(qū)域邊長的一半,此區(qū)域設(shè)定為無人機與目標(biāo)的運動區(qū)域,訓(xùn)練過程中目標(biāo)始終保持靜止?fàn)顟B(tài)處于區(qū)域的中心位置,記為環(huán)境模型的坐標(biāo)原點;訓(xùn)練初始時刻,無人機處于區(qū)域內(nèi)的任意位置;
S2-2:數(shù)據(jù)歸一化;
根據(jù)環(huán)境模型,記無人機狀態(tài)量為s=[Δx Δy vx vy],其中,Δx和Δy為無人機與目標(biāo)在平面投影上的相對位置,有Δx=xe-x=-x,Δy=y(tǒng)e-y=-y;記無人機控制量為a,表示為a=[Fx Fy];
分別對無人機狀態(tài)量和無人機控制量除以對應(yīng)的上限值,使其中每個元素在進(jìn)入算法訓(xùn)練之前的值域為[-1 1],歸一化處理后的無人機狀態(tài)量記為s_norm,且歸一化處理后的無人機控制量記為a_norm,且其中,vmax為無人機能夠保持的最大飛行速度,F(xiàn)x_max為控制機構(gòu)能夠為無人機施加的最大前向作用力,F(xiàn)y_max為控制機構(gòu)能夠為無人機施加的最大側(cè)向作用力;
無人機每時刻的采樣數(shù)據(jù)經(jīng)過歸一化處理后被算法程序收集,用于無人機目標(biāo)跟蹤控制器的訓(xùn)練過程;
S3:設(shè)計基于歐式距離的獎勵函數(shù);
訓(xùn)練的目標(biāo)是使無人機能夠朝向目標(biāo)點運動,無人機與目標(biāo)點之間距離越小,獲得的獎勵越高,為了使無人機在目標(biāo)跟蹤過程中平穩(wěn)追蹤目標(biāo),無人機的速度也作為獎勵函數(shù)設(shè)計的一部分,設(shè)計針對無人機目標(biāo)跟蹤問題強化學(xué)習(xí)算法中使用的獎勵函數(shù)為其中,r為每時刻無人機得到的獎勵值,v為無人機的合速度;
記訓(xùn)練初期無人機能夠獲取到獎勵的平均值為rmean,對得到的獎勵做歸一化處理:
其中,rnorm為歸一化處理后無人機每時刻獲得的獎勵值,使用rnorm作為控制器訓(xùn)練時的數(shù)據(jù);
S4:設(shè)計針對性深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);
深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括狀態(tài)價值函數(shù)估計器網(wǎng)絡(luò)結(jié)構(gòu)和策略網(wǎng)絡(luò)結(jié)構(gòu),
狀態(tài)價值函數(shù)估計器網(wǎng)絡(luò)結(jié)構(gòu)為四層,包括狀態(tài)價值函數(shù)估計器網(wǎng)絡(luò)結(jié)構(gòu)的第一隱藏層、狀態(tài)價值函數(shù)估計器網(wǎng)絡(luò)結(jié)構(gòu)的第二隱藏層、狀態(tài)價值函數(shù)估計器網(wǎng)絡(luò)結(jié)構(gòu)的第三隱藏層和狀態(tài)價值函數(shù)估計器網(wǎng)絡(luò)結(jié)構(gòu)的輸出層,隱藏層的節(jié)點數(shù)依次為128個、64個、32個,狀態(tài)價值函數(shù)估計器網(wǎng)絡(luò)結(jié)構(gòu)的第一隱藏層和狀態(tài)價值函數(shù)估計器網(wǎng)絡(luò)結(jié)構(gòu)的第二隱藏層在傳遞時加入Rule激活函數(shù),狀態(tài)價值函數(shù)估計器網(wǎng)絡(luò)結(jié)構(gòu)的第三隱藏層到網(wǎng)絡(luò)的輸出層不加Rule激活函數(shù),狀態(tài)價值函數(shù)估計器網(wǎng)絡(luò)結(jié)構(gòu)的輸入為歸一化處理后的無人機狀態(tài)量s_norm,輸出為當(dāng)前無人機狀態(tài)量對應(yīng)價值量的估計值;
策略網(wǎng)絡(luò)結(jié)構(gòu)的輸入量是歸一化處理后的無人機狀態(tài)量s_norm,輸出量為歸一化處理后的無人機控制量a_norm,策略網(wǎng)絡(luò)結(jié)構(gòu)分別計算輸出量的均值和方差,分別記為ε和δ,計算輸出量均值部分的神經(jīng)網(wǎng)絡(luò)包含三層隱藏層,分別為策略網(wǎng)絡(luò)結(jié)構(gòu)計算輸出量均值部分的第一隱藏層,策略網(wǎng)絡(luò)結(jié)構(gòu)計算輸出量均值部分的第二隱藏層以及策略網(wǎng)絡(luò)結(jié)構(gòu)計算輸出量均值部分的第三隱藏層,節(jié)點數(shù)依次是128個、64個、32個;計算輸出量方差部分的神經(jīng)網(wǎng)絡(luò)包含二層隱藏層,分別為策略網(wǎng)絡(luò)結(jié)構(gòu)計算輸出量方差部分的第一隱藏層和策略網(wǎng)絡(luò)結(jié)構(gòu)計算輸出量方差部分的第二隱藏層,節(jié)點數(shù)依次是128個、32個;此處,策略網(wǎng)絡(luò)結(jié)構(gòu)計算輸出量均值部分的第一隱藏層和策略網(wǎng)絡(luò)結(jié)構(gòu)計算輸出量方差部分的第一隱藏層是同一網(wǎng)絡(luò)結(jié)構(gòu)層,策略網(wǎng)絡(luò)結(jié)構(gòu)的所有隱藏層之間的激活函數(shù)均為Relu激活函數(shù),計算輸出量均值ε的輸出層之前的激活函數(shù)為Tanh激活函數(shù),計算輸出量方差δ之前的激活函數(shù)為Softplus激活函數(shù),策略網(wǎng)絡(luò)結(jié)構(gòu)的輸出為一個高斯分布的采樣值:a_norm~N(ε,δ);
S5:基于PPO算法的控制器訓(xùn)練;
使用PPO算法進(jìn)行無人機的目標(biāo)跟蹤控制器訓(xùn)練,設(shè)定訓(xùn)練的總周期數(shù)目N,在每個周期內(nèi)無人機與環(huán)境進(jìn)行信息交互,即模擬無人機在環(huán)境中對目標(biāo)進(jìn)行一次跟蹤的過程,無論跟蹤的結(jié)果如何,交互的信息數(shù)據(jù)都將被按照時間序列存儲在經(jīng)驗池中;每當(dāng)經(jīng)驗池數(shù)據(jù)存滿時,將數(shù)據(jù)全部取出,依照PPO算法對策略網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行參數(shù)迭代,直到設(shè)定的訓(xùn)練周期數(shù)目全部訓(xùn)練結(jié)束,將策略網(wǎng)絡(luò)結(jié)構(gòu)取出作為無人機的目標(biāo)跟蹤控制器來使用,訓(xùn)練的周期數(shù)目需滿足最終訓(xùn)練的策略網(wǎng)絡(luò)結(jié)構(gòu)收斂至穩(wěn)定狀態(tài);
S6:無人機目標(biāo)跟蹤控制器使用;
經(jīng)過步驟S5訓(xùn)練好的策略網(wǎng)絡(luò)結(jié)構(gòu)直接被用來當(dāng)作無人機的控制器,輸入為歸一化處理后的無人機狀態(tài)量s_norm,輸出為歸一化處理后的無人機控制量a_norm;
在使用策略網(wǎng)絡(luò)結(jié)構(gòu)作為無人機的控制器時,策略網(wǎng)絡(luò)結(jié)構(gòu)的輸出直接為a_norm=ε;控制器的輸入為歸一化后的無人機狀態(tài)量s_norm,輸出為歸一化后的無人機控制量a_norm,a_norm經(jīng)過逆向運算放大,得到無人機控制量a,作為無人機所應(yīng)該被施加的真實控制量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010216559.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





