[發明專利]一種水下環境中多AUV實時營救任務分配算法有效
| 申請號: | 201910879149.4 | 申請日: | 2019-09-18 |
| 公開(公告)號: | CN110658833B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 吳杰宏;宋成鑫;范純龍;石祥濱;張德園;蘇馨;馬堅;孫熙春;楊京輝 | 申請(專利權)人: | 沈陽航空航天大學 |
| 主分類號: | G05D1/06 | 分類號: | G05D1/06 |
| 代理公司: | 沈陽維特專利商標事務所(普通合伙) 21229 | 代理人: | 甄玉荃 |
| 地址: | 110136 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 水下 環境 auv 實時 營救 任務 分配 算法 | ||
1.一種水下環境中多AUV實時營救任務分配算法,其特征在于:包括如下步驟,
S1:構造復雜的水下環境,包含多個營救區及對應的吸引營救區,在不同的位置設球體與長方體障礙物;
S2:構建代價函數,使其包含兩個部分,一是每個AUV營救路線的長度代價;其二是當前AUV執行營救任務的回報值,這兩個部分按照權重因子進行分配;
S3:如果滿足代價函數值小于已存在的代價函數值且當前營救區的累積的回報值比已存在的營救區的回報值大的條件時,進行粒子的速度與位置的更新;
S4:通過強化學習訓練積累營救區回報值,尋找這些回報值的最大值,從而找到一種執行營救過程的最優行為策略;該步驟中,c_reward通過強化學習訓練積累營救區回報值,尋找這些回報值的最大值,從而找到一種執行營救過程的最優行為策略;假設多AUV系統中有三個AUV,多AUV系統的營救過程通過定義一個元組S,Θ1,Θ2,Θ3,p,γ1,γ2,γ3進行描述,該元組具體表現形式如下:
p:S×Θ×S→[0,1]
Θ=Θ1×Θ2×Θ3
上式中S表示環境的狀態集合,Θ1,Θ2和Θ3表示該系統中三個AUV的行為,γi是第i個AUV的回報函數,p是狀態轉移概率函數,Θ表示多AUV系統的動作集合;
c_reward從強化學習的訓練積累營救區的回報值,公式如下,
上式中αj為在j次迭代時的折扣因子,ri,j+1是第i個AUV在第j+1次迭代時的回報值,是第i個AUV累積的回報值,π是一種AUV逐漸靠近各自的最適合的營救區的策略;表示在策略π引導下,第i個AUV通過一系列狀態與行為所獲得的累積回報值;這里的s是一種抽象的狀態,它可以表示成趨向于營救區的若干位置,a表示要達到這樣狀態所作出的行為;
最終通過代價函數COST_F尋找最優策略,即,
AUV在營救過程的路線可以通過若干的路徑點進行標記,針對每個營救區,設中心點位于Ti(xi,yi,zi),對于路徑點P(x,y,z)距離中心點的距離dist可以表達為:
基于dist,對于營救路線上的每個路徑點P(x,y,z)的回報值γ可以表示為:
對于營救路線上的每個路徑點p(x,y,z)的回報值γ,為了減小營救路線的路徑點在營救區附近的波動幅度,加強算法的穩定性,從每個營救區的營救狀態出發,提出一個回報權重系數作用于回報值γ的計算;假設有N個營救區,在第i次迭代的回報值之和為:
在計算回報值時,當時,設置因此回報權重系數可以表達為:
那么經過回報權重系數作用后的每個路徑點P(x,y,z)的回報值γ可以表示為:
W(j)(k)表示第k個營救區在第j次迭代時回報權重系數,表示第k個營救區在(j+1)時的回報值;
當路徑點在營救區內過度累積時或當AUV在應該執行的營救區任務內不存在路徑點時,對營救區的回報值進行懲罰,
其中η表示路徑點在第k個營救區內累積的個數,κ表示營救區路徑點累積的個數上限,ε1表示懲罰回報值為常數;當η>κ時,表示營救區中累積的路徑點個數達到閾值上限κ,需要對回報值懲罰;當營救區內沒有路徑點,根據回報權重系數進行判斷回報值是否要進行懲罰
W(j)(k)表示j次迭代時第k個營救區的權重系數,W(j)(k)>0表示j次迭代時對第k個營救區是有“偏愛性”,存在路徑點在該營救區內,而在(j+1)次迭代時,W(j+1)(k)=0表示沒有路徑點在該營救區內,在這種情況下,需要對回報值進行懲罰。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽航空航天大學,未經沈陽航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910879149.4/1.html,轉載請聲明來源鉆瓜專利網。





