[發明專利]一種基于深度強化學習的固定翼無人機群集控制方法有效
| 申請號: | 201910832120.0 | 申請日: | 2019-09-04 |
| 公開(公告)號: | CN110502034B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 閆超;相曉嘉;王菖;牛軼峰;尹棟;吳立珍;陳紫葉 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙) 43008 | 代理人: | 周長清 |
| 地址: | 410073 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 固定 無人機 群集 控制 方法 | ||
1.一種基于深度強化學習的固定翼無人機群集控制方法,其特征在于,步驟包括:
步驟S1、離線訓練階段:建立隨機無人機動力學模型,基于競爭雙重Q網絡的Q函數評估之后,進行動作選擇;所述競爭雙重Q網絡為D3QN網絡;
步驟S2、在線執行階段:構建競爭雙重Q網絡,并載入訓練好的網絡模型,所述網絡模型和動作選擇策略運行在僚機的機載電腦上,長機滾轉動作由操控員給出,長機和僚機的自駕儀分別根據各自的滾轉動作,直至完成飛行任務;
所述離線訓練階段包括如下步驟:
步驟S11、建立隨機無人機動力學模型;考慮無人機在恒定高度飛行,動力學模型用簡化的四自由度模型描述;在滾轉、空速各個子狀態引入隨機性,建立隨機無人機動力學模型;
步驟S12、基于競爭雙重Q網絡的Q函數評估;
步驟S13、動作選擇;在離線訓練階段,所述動作選擇策略使用結合示范教學的ε-greedy策略;即僚機以ε的概率選擇最小Q值對應的動作,以1-ε的概率模仿長機動作;所述動作集合為無人機滾轉角的變化量,即{+15°,0,-15°};
所述步驟S12包括:
步驟S121、構建D3QN的主網絡和目標網絡,并隨機初始化網絡參數;
步驟S122、在與環境的不斷交互中更新網絡參數。
2.根據權利要求1所述基于深度強化學習的固定翼無人機群集控制方法,其特征在于,所述步驟S122包括:
步驟S1221:持續采集僚機與環境進行交互的歷史經驗,并存儲到經驗池中;所述交互過程為:智能體獲取長機的狀態信息及自身的狀態信息,組成聯合狀態信息z輸入到D3QN中,動作選擇策略根據D3QN的輸出選取僚機的滾轉動作ar;分別將長機的滾轉動作隨機產生以增加系統的隨機性和僚機的滾轉指令輸入隨機無人機動力學模型,得到長機和僚機下一時刻的狀態z′和回報函數值g;
步驟S1222:從經驗池中進行隨機采樣,批次更新D3QN的網絡參數;每一時間步,應用Adam算法批次更新主網絡參數;每隔一定的時間步,對目標網絡參數進行軟更新,即朝向主網絡參數更新目標網絡參數;
步驟S1223:當訓練回合數達到預設條件時,結束所述更新過程,并保存D3QN的模型參數。
3.根據權利要求2所述基于深度強化學習的固定翼無人機群集控制方法,其特征在于,更新過程是以回合為單位進行的;在每一回合的更新過程中,隨機初始化長機和僚機的初始狀態;當每回合的時間步達到一定步數,該回合結束,重新開始下一回合的學習。
4.根據權利要求1-3中任意一項所述基于深度強化學習的固定翼無人機群集控制方法,其特征在于,所述步驟S2包括:
步驟S21、僚機通過傳感器獲取自身位置和姿態信息,并通過通信鏈路獲取長機的位置和姿態信息,進而組成系統聯合狀態;
步驟S22、構建競爭雙重Q網絡,并載入訓練好的網絡模型;D3QN預測當前狀態下所有待選動作的Q值,動作選擇策略每隔1s更新僚機滾轉指令,即當前狀態下最小Q值所對應的動作;所述網絡模型和動作選擇策略運行在僚機的機載電腦上;長機滾轉動作由操控員給出;
步驟S23、長機和僚機的自駕儀分別根據各自的滾轉動作,由PID控制器完成底層閉環控制;
步驟S24、重復上述過程,直至完成飛行任務。
5.根據權利要求1-3中任意一項所述基于深度強化學習的固定翼無人機群集控制方法,其特征在于,所述D3QN網絡由兩個子網絡組成:多層感知機和競爭網絡;所述多層感知機包含三層全連接層,隱含節點數分別為64、256和128,激活函數均使用ReLU,其表達式為f(x)=max(0,x);所述競爭網絡包含兩個分支:狀態值函數分支和優勢函數分支;狀態值函數分支和優勢函數分支均包含兩層全連接層;兩分支第一全連接層的隱含節點數均為64,且均使用ReLU激活函數;狀態值函數分支和優勢函數分支第二全連接層的隱含節點數分別為1和3,分別表示當前狀態的值函數和當前狀態下3個待選動作的優勢函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910832120.0/1.html,轉載請聲明來源鉆瓜專利網。





