[發(fā)明專利]一種水下環(huán)境中多AUV實(shí)時(shí)營(yíng)救任務(wù)分配算法有效
| 申請(qǐng)?zhí)枺?/td> | 201910879149.4 | 申請(qǐng)日: | 2019-09-18 |
| 公開(公告)號(hào): | CN110658833B | 公開(公告)日: | 2022-06-14 |
| 發(fā)明(設(shè)計(jì))人: | 吳杰宏;宋成鑫;范純龍;石祥濱;張德園;蘇馨;馬堅(jiān);孫熙春;楊京輝 | 申請(qǐng)(專利權(quán))人: | 沈陽航空航天大學(xué) |
| 主分類號(hào): | G05D1/06 | 分類號(hào): | G05D1/06 |
| 代理公司: | 沈陽維特專利商標(biāo)事務(wù)所(普通合伙) 21229 | 代理人: | 甄玉荃 |
| 地址: | 110136 遼寧*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 水下 環(huán)境 auv 實(shí)時(shí) 營(yíng)救 任務(wù) 分配 算法 | ||
1.一種水下環(huán)境中多AUV實(shí)時(shí)營(yíng)救任務(wù)分配算法,其特征在于:包括如下步驟,
S1:構(gòu)造復(fù)雜的水下環(huán)境,包含多個(gè)營(yíng)救區(qū)及對(duì)應(yīng)的吸引營(yíng)救區(qū),在不同的位置設(shè)球體與長(zhǎng)方體障礙物;
S2:構(gòu)建代價(jià)函數(shù),使其包含兩個(gè)部分,一是每個(gè)AUV營(yíng)救路線的長(zhǎng)度代價(jià);其二是當(dāng)前AUV執(zhí)行營(yíng)救任務(wù)的回報(bào)值,這兩個(gè)部分按照權(quán)重因子進(jìn)行分配;
S3:如果滿足代價(jià)函數(shù)值小于已存在的代價(jià)函數(shù)值且當(dāng)前營(yíng)救區(qū)的累積的回報(bào)值比已存在的營(yíng)救區(qū)的回報(bào)值大的條件時(shí),進(jìn)行粒子的速度與位置的更新;
S4:通過強(qiáng)化學(xué)習(xí)訓(xùn)練積累營(yíng)救區(qū)回報(bào)值,尋找這些回報(bào)值的最大值,從而找到一種執(zhí)行營(yíng)救過程的最優(yōu)行為策略;該步驟中,c_reward通過強(qiáng)化學(xué)習(xí)訓(xùn)練積累營(yíng)救區(qū)回報(bào)值,尋找這些回報(bào)值的最大值,從而找到一種執(zhí)行營(yíng)救過程的最優(yōu)行為策略;假設(shè)多AUV系統(tǒng)中有三個(gè)AUV,多AUV系統(tǒng)的營(yíng)救過程通過定義一個(gè)元組S,Θ1,Θ2,Θ3,p,γ1,γ2,γ3進(jìn)行描述,該元組具體表現(xiàn)形式如下:
p:S×Θ×S→[0,1]
Θ=Θ1×Θ2×Θ3
上式中S表示環(huán)境的狀態(tài)集合,Θ1,Θ2和Θ3表示該系統(tǒng)中三個(gè)AUV的行為,γi是第i個(gè)AUV的回報(bào)函數(shù),p是狀態(tài)轉(zhuǎn)移概率函數(shù),Θ表示多AUV系統(tǒng)的動(dòng)作集合;
c_reward從強(qiáng)化學(xué)習(xí)的訓(xùn)練積累營(yíng)救區(qū)的回報(bào)值,公式如下,
上式中αj為在j次迭代時(shí)的折扣因子,ri,j+1是第i個(gè)AUV在第j+1次迭代時(shí)的回報(bào)值,是第i個(gè)AUV累積的回報(bào)值,π是一種AUV逐漸靠近各自的最適合的營(yíng)救區(qū)的策略;表示在策略π引導(dǎo)下,第i個(gè)AUV通過一系列狀態(tài)與行為所獲得的累積回報(bào)值;這里的s是一種抽象的狀態(tài),它可以表示成趨向于營(yíng)救區(qū)的若干位置,a表示要達(dá)到這樣狀態(tài)所作出的行為;
最終通過代價(jià)函數(shù)COST_F尋找最優(yōu)策略,即,
AUV在營(yíng)救過程的路線可以通過若干的路徑點(diǎn)進(jìn)行標(biāo)記,針對(duì)每個(gè)營(yíng)救區(qū),設(shè)中心點(diǎn)位于Ti(xi,yi,zi),對(duì)于路徑點(diǎn)P(x,y,z)距離中心點(diǎn)的距離dist可以表達(dá)為:
基于dist,對(duì)于營(yíng)救路線上的每個(gè)路徑點(diǎn)P(x,y,z)的回報(bào)值γ可以表示為:
對(duì)于營(yíng)救路線上的每個(gè)路徑點(diǎn)p(x,y,z)的回報(bào)值γ,為了減小營(yíng)救路線的路徑點(diǎn)在營(yíng)救區(qū)附近的波動(dòng)幅度,加強(qiáng)算法的穩(wěn)定性,從每個(gè)營(yíng)救區(qū)的營(yíng)救狀態(tài)出發(fā),提出一個(gè)回報(bào)權(quán)重系數(shù)作用于回報(bào)值γ的計(jì)算;假設(shè)有N個(gè)營(yíng)救區(qū),在第i次迭代的回報(bào)值之和為:
在計(jì)算回報(bào)值時(shí),當(dāng)時(shí),設(shè)置因此回報(bào)權(quán)重系數(shù)可以表達(dá)為:
那么經(jīng)過回報(bào)權(quán)重系數(shù)作用后的每個(gè)路徑點(diǎn)P(x,y,z)的回報(bào)值γ可以表示為:
W(j)(k)表示第k個(gè)營(yíng)救區(qū)在第j次迭代時(shí)回報(bào)權(quán)重系數(shù),表示第k個(gè)營(yíng)救區(qū)在(j+1)時(shí)的回報(bào)值;
當(dāng)路徑點(diǎn)在營(yíng)救區(qū)內(nèi)過度累積時(shí)或當(dāng)AUV在應(yīng)該執(zhí)行的營(yíng)救區(qū)任務(wù)內(nèi)不存在路徑點(diǎn)時(shí),對(duì)營(yíng)救區(qū)的回報(bào)值進(jìn)行懲罰,
其中η表示路徑點(diǎn)在第k個(gè)營(yíng)救區(qū)內(nèi)累積的個(gè)數(shù),κ表示營(yíng)救區(qū)路徑點(diǎn)累積的個(gè)數(shù)上限,ε1表示懲罰回報(bào)值為常數(shù);當(dāng)η>κ時(shí),表示營(yíng)救區(qū)中累積的路徑點(diǎn)個(gè)數(shù)達(dá)到閾值上限κ,需要對(duì)回報(bào)值懲罰;當(dāng)營(yíng)救區(qū)內(nèi)沒有路徑點(diǎn),根據(jù)回報(bào)權(quán)重系數(shù)進(jìn)行判斷回報(bào)值是否要進(jìn)行懲罰
W(j)(k)表示j次迭代時(shí)第k個(gè)營(yíng)救區(qū)的權(quán)重系數(shù),W(j)(k)>0表示j次迭代時(shí)對(duì)第k個(gè)營(yíng)救區(qū)是有“偏愛性”,存在路徑點(diǎn)在該營(yíng)救區(qū)內(nèi),而在(j+1)次迭代時(shí),W(j+1)(k)=0表示沒有路徑點(diǎn)在該營(yíng)救區(qū)內(nèi),在這種情況下,需要對(duì)回報(bào)值進(jìn)行懲罰。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于沈陽航空航天大學(xué),未經(jīng)沈陽航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910879149.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測(cè)終端和環(huán)境檢測(cè)系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計(jì)裝置和環(huán)境估計(jì)方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動(dòng)力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測(cè)儀(環(huán)境貓)
- 一種基于水聲雙程測(cè)距的多AUV協(xié)同定位方法
- AUV大潛深運(yùn)動(dòng)浮力補(bǔ)償控制方法
- 一種基于測(cè)距聲通的AUV回塢導(dǎo)航方法
- 一種基于雙運(yùn)動(dòng)模型的主從式多AUV協(xié)同導(dǎo)航方法
- 一種適用于深海AUV的無速度輔助單信標(biāo)定位方法
- 水聲傳感器網(wǎng)絡(luò)中基于多AUV位置預(yù)測(cè)的數(shù)據(jù)收集方法
- 一種基于聲學(xué)和光學(xué)引導(dǎo)的AUV捕獲引導(dǎo)方法
- 一種用于AUV回收的套筒式減速防撞回收管
- 一種可移動(dòng)可折疊的繩網(wǎng)式AUV回收系統(tǒng)
- 一種蜂窩狀的AUV集群布放回收裝置的控制系統(tǒng)
- 實(shí)時(shí)解碼系統(tǒng)與實(shí)時(shí)解碼方法
- 實(shí)時(shí)穩(wěn)定
- 實(shí)時(shí)監(jiān)控裝置、實(shí)時(shí)監(jiān)控系統(tǒng)以及實(shí)時(shí)監(jiān)控方法
- 實(shí)時(shí)或準(zhǔn)實(shí)時(shí)流傳輸
- 實(shí)時(shí)或準(zhǔn)實(shí)時(shí)流傳輸
- 實(shí)時(shí)通信方法和實(shí)時(shí)通信系統(tǒng)
- 實(shí)時(shí)更新
- 實(shí)時(shí)內(nèi)核
- 用于通信網(wǎng)絡(luò)的網(wǎng)絡(luò)設(shè)備及相關(guān)方法
- 實(shí)時(shí)量化方法及實(shí)時(shí)量化系統(tǒng)





