[發(fā)明專利]基于深度圖像和強化學習的無人機導航與避障方法在審
| 申請?zhí)枺?/td> | 202310538440.1 | 申請日: | 2023-05-12 |
| 公開(公告)號: | CN116384610A | 公開(公告)日: | 2023-07-04 |
| 發(fā)明(設(shè)計)人: | 錢紅燕;楊柏桐 | 申請(專利權(quán))人: | 南京航空航天大學 |
| 主分類號: | G06Q10/047 | 分類號: | G06Q10/047;G06V20/17;G06T7/50;G06N3/04;G06N3/084 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 211106 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 圖像 強化 學習 無人機 導航 方法 | ||
1.一種基于深度圖像和強化學習的無人機導航與避障方法,其特征在于,包含以下步驟:
步驟1,基于馬爾科夫決策過程四元組S,A,P,R,建立三維環(huán)境中無人機導航與避障模型,其中S為狀態(tài)空間,A為動作空間,P為狀態(tài)轉(zhuǎn)移概率函數(shù),R為獎勵函數(shù);
步驟2,設(shè)計一種結(jié)合深度圖像中深度信息和二維正態(tài)分布的障礙物分析方法,并提供額外的獎勵信號,提高無人機躲避不同方位上復雜形狀障礙物的能力;
步驟3,基于狀態(tài)和策略選擇動作,無人機執(zhí)行動作與環(huán)境交互后到達新的狀態(tài),并計算所得到的獎勵;
步驟4,采用PPO算法,利用環(huán)境反饋獎勵計算出的優(yōu)勢值對網(wǎng)絡進行更新;
步驟5,重復步驟3和步驟4,直到得到最優(yōu)策略。
2.根據(jù)權(quán)利要求1所述一種基于深度圖像和強化學習的無人機導航與避障方法,其特征在于,步驟1中基于馬爾科夫決策過程建立三維環(huán)境中無人機導航與避障模型,具體包括:
狀態(tài)空間S:由無人機的觀測狀態(tài)和飛行狀態(tài)組成;無人機將時刻t的深度圖像信息作為觀測值ot,并疊加最近4個連續(xù)時刻的觀測值(ot-3,ot-2,ot-1,ot)作為觀測信息,用于提供時序信息;飛行狀態(tài)st具體為:無人機與目標點的水平相對距離dt,定義目標點水平坐標(xt,yt),計算無人機與目標點的距離dreal,采用縮放裁剪的方法,dt=clip(dreal/10,0,1),將真實距離縮放為原來的十分之一,并將結(jié)果裁剪為0到1之間;無人機偏航方向與目標點方向的水平夾角φt;無人機的飛行高度ht;以無人機為原點建立三維坐標系,無人機偏航方向為x軸,平行地面方向為y軸,垂直地面方向為z軸,計算無人機坐標軸方向分速度vxt,vyt,vzt,無人機偏航角速度ωt,飛行狀態(tài)記為(dt,h,vxt,vyt,vzt,ωt);
動作空間A:采用連續(xù)動作空間方法確定無人機t時刻的動作,分別為無人機直線飛行線速度a1,無人機豎直飛行線速度a2,無人機偏航角速度a3,三個動作共同控制無人機的飛行;
獎勵函數(shù)R:定義無人機導航與避障問題的非稀疏獎勵函數(shù),主要包括飛行獎勵,步數(shù)懲罰,前向獎勵,結(jié)束獎勵四個部分;飛行獎勵用于表示無人機相對目標點的飛行情況,使用vt表示無人機水平方向上的速度,θt表示速度方向與目標點方向的夾角,飛行獎勵為rflight=vtcos(θt);步數(shù)懲罰用于鼓勵無人機用更少的時間完成飛行到目標點的任務,定義為rstep=-0.005;前向獎勵計算深度圖像中間部分的像素值的平均值,鼓勵無人機選擇較安全的方向飛行,前向獎勵被定義為rfront=2×mean(center(20×20)-1;結(jié)束獎勵被定義為rdone=dt,用于表示無人機到達飛行結(jié)束狀態(tài)時的獎勵,當無人機與障礙物發(fā)生碰撞或者飛行高度超過預設(shè)的高度時dt=-1,當無人機到達目標位置時dt=1,其余情況dt=0;最終的獎勵函數(shù)由各部分加權(quán)得到:
rt=0.01×rflight+rstep+0.01×rfront+rdone。
3.根據(jù)權(quán)利要求1所述一種基于深度圖像和強化學習的無人機導航與避障方法,其特征在于,步驟2中設(shè)計一種結(jié)合深度圖像中深度信息和二維正態(tài)分布的障礙物檢測方法,具體為,對無人機的飛行過程進行分析可知,在飛行中需要對靠近飛行方向基線上的障礙物進行優(yōu)先避障,對于靠近飛行方向法線上的障礙物則保持較低的避障優(yōu)先級;通過將深度信息在空間中的分布映射到二維正態(tài)分布上,可以計算出特定像素點所對應障礙物對無人機飛行安全的影響。
4.根據(jù)權(quán)利要求3所述一種基于深度圖像和強化學習的無人機導航與避障方法,其特征在于,步驟2中將深度信息轉(zhuǎn)換為函數(shù)獎勵的方法,具體為,深度圖像由無人機攜帶的前置深度相機獲取,圖像大小為W×H;采用服從(μ1,μ2,σ1,σ2,ρ)=(0,0,1,1,0)的二維正態(tài)分布:
定義飛行方向基線上的最小安全避障距離M,取二維坐標系區(qū)域D={x,y|-X<x<X,-Y<y<Y},將x方向劃分為W個等分點,y方向劃分為H個等分點,劃分出的W×H個點與深度圖像上對應位置的像素點形成雙射關(guān)系,設(shè)(0,0)點處在二維正態(tài)分布上的值對應的最大安全避障距離為M,可計算出其余任意點所對應的最小安全避障距離:
當一點處對應的障礙物距離大于最小安全避障距離時,該點的獎勵為0,否則根據(jù)靠近程度計算出該點的獎勵值,最后取所有點對應獎勵值的最小值作為深度獎勵rdepth:
式中O(x,y)為深度圖像上(x,y)映射點的像素值大小,將深度獎勵添加到獎勵函數(shù)中得到新的獎勵函數(shù)為:
rt=0.01×rflight+rstep+0.01×rfront+rdone+0.04×rdepth。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京航空航天大學,未經(jīng)南京航空航天大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310538440.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





