[發明專利]面向移動平臺基于專家經驗的DDPG無人機降落方法在審
| 申請號: | 202210742166.5 | 申請日: | 2022-06-28 |
| 公開(公告)號: | CN115033022A | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 張平;羅黎明 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10;G06N3/04;G06N3/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 黃月瑩 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 移動 平臺 基于 專家 經驗 ddpg 無人機 降落 方法 | ||
1.面向移動平臺基于專家經驗的DDPG無人機降落方法,其特征在于,包括以下步驟:
步驟1、構建無人機移動平臺降落的馬爾科夫模型;
步驟2、構建DDPG算法中的神經網絡;
步驟3、無人機和目標狀態更新;
步驟4、在仿真模擬器中構建無人機著陸場景,使用基于專家經驗的確定性策略梯度方法訓練無人機面向移動平臺進行降落。
2.根據權利要求1所述的面向移動平臺基于專家經驗的DDPG無人機降落方法,其特征在于,馬爾科夫模型為(S,A,O,R,γ),其中S為神經網絡的輸入狀態,A為無人機的輸出動作,O為無人機傳感器的觀測空間,R為獎勵函數,γ為折扣因子。
3.根據權利要求1所述的面向移動平臺基于專家經驗的DDPG無人機降落方法,其特征在于,步驟1-1、定義馬爾科夫模型的狀態空間,輸入狀態S:
結合無人機狀態和移動平臺狀態,設定輸入狀態為:
S=[Suav,Splatform]
其中無人機狀態xuav、yuav、zuav表示無人機在三維平面上的位置,為無人機沿X、Y、Z軸的速度分量;
移動平臺狀態:Splatform=[xplatform,yplatform,zplatform],xplatform、yplatform、zplatform表示無人機在三維平面上的位置;
步驟1-2、定義馬爾科夫模型的動作空間,即無人機的輸出動作A:
輸出動作A表示無人機接收到外界反饋信號,即無人機離移動目標的遠近,針對自身狀態所采集的動作集;設定輸出動作為:
其中,為無人機沿X、Y、Z軸的速度分量,結合實際應用對無人機的速度進行約束:其中分別代表無人機的最小、最大速度;
步驟1-3、定義馬爾科夫模型的觀測空間,即傳感器的觀測空間O:
利用雷達傳感器對無人機和目標的位置進行判斷和獲取;設定觀測空間為:
O=[D]
其中,無人機與目標的之間的相對距離D為:
步驟1-4、定義獎勵函數R:
利用傳感器獲取無人機與移動平臺的位置信息,通過對無人機進行距離獎懲、碰撞獎懲和時間獎懲,綜合得到獎勵函數R,表示無人機在當前狀態下選取某一動作時所獲得的反饋值:綜合無人機距離獎勵和避碰獎勵,得到獎勵函數R為:
其中,λ4、λ5分別表示距離獎勵避碰獎勵的權重系數;
步驟1-5、定義折扣因子γ:
設定折扣因子0γ1,用于計算整個過程中的回報累計值;當γ值越大,表示越注重長期收益。
4.根據權利要求3所述的面向移動平臺基于專家經驗的DDPG無人機降落方法,其特征在于,距離獎勵函數為:
其中為距離獎勵函數,λ1、λ2為兩項獎勵的權重值;Dt代表無人機與移動平臺當前t時刻之間的歐式距離;L為設置的常數值;若Dt≥L,則給予一個與距離Dt成正比的負懲罰獎勵;若DtL,則在正常數c1的基礎上,再給予一個與距離Dt成反比的正獎勵;
避碰獎勵為:
其中Dt是無人機與移動平臺當前t時刻之間的歐式距離,當不發生碰撞時碰撞懲罰獎勵為0,如果無人機發生碰撞,在給予c2常數的負懲罰基礎上,再給予與移動平臺距離成正比的負懲罰獎勵,λ3為碰撞系數常數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210742166.5/1.html,轉載請聲明來源鉆瓜專利網。





