[發明專利]基于深度強化學習的四旋翼無人機自主導航方法與系統在審
| 申請號: | 202210011567.3 | 申請日: | 2022-01-06 |
| 公開(公告)號: | CN114355980A | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 朱光耀;王成光;楊根科;褚健;王宏武 | 申請(專利權)人: | 上海交通大學寧波人工智能研究院 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 上海劍秋知識產權代理有限公司 31382 | 代理人: | 徐浩俊;徐海兵 |
| 地址: | 315012 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 四旋翼 無人機 自主 導航 方法 系統 | ||
本發明公開了一種基于深度強化學習的四旋翼無人機自主導航方法與系統,涉及四旋翼無人機和深度強化學習領域,方法包括以下步驟:步驟1、構建DDPG網絡模型,并使用2D?GA算法來訓練DDPG網絡模型;步驟2、獲得四旋翼無人機的位姿并建立ESDF地圖;步驟3、在ESDF地圖上,用路徑搜索算法得到離散路徑點序列;步驟4、將位姿向量、ESDF地圖矩陣、離散路徑點向量并行輸入特征提取網絡,并將提取的若干特征拼接成一個組合特征輸入到DDPG網絡模型中,輸出動作a;步驟5、控制模塊將動作a轉化成四旋翼無人機的四個電機的轉速并執行;步驟6、在執行完動作a之后,根據獎勵函數計算獎勵r,判斷是否到達目的地;如果沒有到達目的地,則重復步驟2到步驟6。
技術領域
本發明涉及四旋翼無人機和深度強化學習領域,尤其涉及一種基于深度強化學習的四旋翼無人機自主導航方法與系統。
背景技術
近年來,隨著傳感器設備和MEMS(Micro Electro Mechanical System,微機電系統)芯片的發展,四旋翼無人機已廣泛應用于航拍、搜索和救援等領域。為了能夠在未知雜亂的環境中完成任務,無人機的自主導航能力至關重要。
無人機自主導航系統主要由狀態估計、環境感知、運動規劃、動態控制這幾個模塊組成。狀態估計和環境感知統稱為SLAM(Simultaneous Localization And Mapping,同步定位與建圖)系統,即利用無人機搭載的視覺傳感器或者激光雷達實現自身的定位和對地圖的構建。運動規劃模塊則根據SLAM模塊得到的無人機位姿和地圖信息,規劃出一條可執行的軌跡,發送給底層的控制模塊。控制模塊通常是由飛控設備完成,實現無人機對期望軌跡的精準追蹤。隨著科學技術的發展,狀態估計、環境感知、動態控制都具有了很高的可靠性、適用性和魯棒性,所以運動規劃模塊能否輸出一條光滑、安全并且動力學可行的軌跡,對于無人機的自主導航至關重要。
傳統的運動規劃方法主要由前端的路徑搜索和后端的軌跡優化兩部分組成。前端使用A*、RRT(Rapidly-Exploring Random Tree,快速擴展隨機樹)等路徑搜索算法在低維的狀態空間內得到一個離散的初始解,然后后端在連續空間內對前端的低維近似解進行優化,得到一個可供控制器執行的高質量解。上述方法主要適用于環境已知并且是靜態的情況,當環境未知并且存在動態變化時,無人機需要具備在線實時局部重規劃能力,即根據傳感器得到的信息更新地圖,并臨時重新規劃局部軌跡以避免碰撞。傳統方法通常采用非線性優化來進行局部重規劃,也就是設計一個目標函數對無人機軌跡的安全性、光滑性和動力學可行性進行約束,但該非線性優化通常是一個非凸問題,求解過程中容易陷入局部極值,并且求解優化問題的速度很難滿足無人機在未知環境中高機動性飛行的要求。
強化學習是機器學習的一個分支,通過智能體與環境進行交互來學習策略以最大化期望累積回報。傳統的強化學習方法,比如Q-learning(Q值學習),只能處理有限維度的狀態和動作空間,極大地限制了強化學習在實際中的應用。而隨著近年來深度學習的發展,與之相結合產生的深度強化學習很好地解決了維度爆炸的問題,并將離散的狀態和動作空間擴展到了連續空間,從而在機器人控制領域也有了廣泛的應用。使用深度強化學習進行無人機自主導航,計算處理速度快,不容易陷入局部最優,適合在未知環境中實時處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學寧波人工智能研究院,未經上海交通大學寧波人工智能研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210011567.3/2.html,轉載請聲明來源鉆瓜專利網。





