[發(fā)明專利]一種基于深度強化學習的固定翼無人機群集控制方法有效
| 申請?zhí)枺?/td> | 201910832120.0 | 申請日: | 2019-09-04 |
| 公開(公告)號: | CN110502034B | 公開(公告)日: | 2022-08-09 |
| 發(fā)明(設計)人: | 閆超;相曉嘉;王菖;牛軼峰;尹棟;吳立珍;陳紫葉 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙) 43008 | 代理人: | 周長清 |
| 地址: | 410073 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 固定 無人機 群集 控制 方法 | ||
本發(fā)明公開了一種基于深度強化學習的固定翼無人機群集控制方法,其步驟包括:步驟S1、離線訓練階段:建立隨機無人機動力學模型,基于競爭雙重Q網(wǎng)絡的Q函數(shù)評估之后,進行動作選擇;所述競爭雙重Q網(wǎng)絡為D3QN網(wǎng)絡;步驟S2、在線執(zhí)行階段:構建競爭雙重Q網(wǎng)絡,并載入訓練好的網(wǎng)絡模型,所述網(wǎng)絡模型和動作選擇策略運行在僚機的機載電腦上,長機滾轉(zhuǎn)動作由操控員給出,長機和僚機的自駕儀分別根據(jù)各自的滾轉(zhuǎn)動作,直至完成飛行任務。本發(fā)明具有較強的實時性和適應性,能夠?qū)⒎抡嬷杏柧毜玫降牟呗赃w移到真實環(huán)境等優(yōu)點。
技術領域
本發(fā)明主要涉及到無人機技術領域,特指一種基于深度強化學習的固定翼無人機群集控制方法。
背景技術
近年來,隨著傳感器技術、通信技術以及智能控制技術的不斷發(fā)展,無人機技術取得了長足的進步。固定翼無人機具有飛行速度快、續(xù)航能力強和有效載荷大等特點,在災難搜救、邊境巡邏、反恐等領域得到了廣泛的應用。由于單架無人機性能的不足,上述任務通常需要多架無人機協(xié)同配合方能高效完成。然而,操控多架固定翼無人機需要大量的人力來監(jiān)控每架飛機的狀態(tài),協(xié)調(diào)多架無人機遂行任務仍面臨一定的挑戰(zhàn)。
“一致性理論”被廣泛用于解決無人機的群集控制問題。但該類方法依賴于平臺和擾動的精確模型。這一模型通常具有復雜、時變、非線性的特點,加之傳感器誤差、環(huán)境擾動等隨機因素的影響,往往難以精確建模,這嚴重限制了該類方法在真實世界的適用性。作為代替,應用強化學習方法解決上述矛盾得到了越來越多的關注。
目前,現(xiàn)有基于強化學習的群集控制解決方案主要針對旋翼無人機。與旋翼機相比,由于固定翼無人機的飛行動力學的非完整約束,固定翼無人機群集控制更加復雜,將強化學習算法應用于固定翼無人機協(xié)群集控制中的研究成果仍然較少。
發(fā)明內(nèi)容
本發(fā)明要解決的技術問題就在于:針對現(xiàn)有技術存在的技術問題,本發(fā)明提供一種具有較強的實時性和適應性,能夠?qū)⒎抡嬷杏柧毜玫降牟呗赃w移到真實環(huán)境中的基于深度強化學習的固定翼無人機群集控制方法。
為解決上述技術問題,本發(fā)明采用以下技術方案:
一種基于深度強化學習的固定翼無人機群集控制方法,其步驟包括:
步驟S1、離線訓練階段:建立隨機無人機動力學模型,基于競爭雙重Q網(wǎng)絡的Q函數(shù)評估之后,進行動作選擇;所述競爭雙重Q網(wǎng)絡為D3QN網(wǎng)絡;
步驟S2、在線執(zhí)行階段:構建競爭雙重Q網(wǎng)絡,并載入訓練好的網(wǎng)絡模型,所述網(wǎng)絡模型和動作選擇策略運行在僚機的機載電腦上,長機滾轉(zhuǎn)動作由操控員給出,長機和僚機的自駕儀分別根據(jù)各自的滾轉(zhuǎn)動作,直至完成飛行任務。
作為本發(fā)明的進一步改進:所述離線訓練階段包括如下步驟:
步驟S11、建立隨機無人機動力學模型;考慮無人機在恒定高度飛行,動力學模型用簡化的四自由度模型描述;在滾轉(zhuǎn)、空速等各個子狀態(tài)引入隨機性,建立隨機無人機動力學模型;
步驟S12、基于競爭雙重Q網(wǎng)絡的Q函數(shù)評估;
步驟S13、動作選擇;在離線訓練階段,所述動作選擇策略使用結(jié)合示范教學的ε-greedy策略;即僚機以ε的概率選擇最小Q值對應的動作,以1-ε的概率模仿長機動作;所述動作集合為無人機滾轉(zhuǎn)角的變化量,即{+15°,0,-15°}。
作為本發(fā)明的進一步改進:所述步驟S12包括:
步驟S121、構建D3QN的主網(wǎng)絡和目標網(wǎng)絡,并隨機初始化網(wǎng)絡參數(shù);
步驟S122、在與環(huán)境的不斷交互中更新網(wǎng)絡參數(shù)。
作為本發(fā)明的進一步改進:所述步驟S122包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經(jīng)中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910832120.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





