[發(fā)明專利]一種基于P-MAXQ的多水下機(jī)器人的圍捕方法有效
| 申請?zhí)枺?/td> | 201710606786.5 | 申請日: | 2017-07-24 |
| 公開(公告)號: | CN107844460B | 公開(公告)日: | 2020-12-25 |
| 發(fā)明(設(shè)計(jì))人: | 孟宇龍;張朦朦;張子迎;徐東;姬少培;李賢;呂駿;王杰;方一成;王巖俊 | 申請(專利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18;G06Q10/04;B25J9/16 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區(qū)*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 maxq 水下 機(jī)器人 圍捕 方法 | ||
1.一種基于P-MAXQ的多水下機(jī)器人的圍捕方法,其特征在于:該方法采用概率統(tǒng)計(jì)Bayes公式和MAXQ算法結(jié)合的行為預(yù)測方法,并建立了相應(yīng)的預(yù)測P-MAXQ算法理論;在P-MAXQ算法理論基礎(chǔ)上構(gòu)建了動作預(yù)測表;并且在P-MAXQ中增加了即時(shí)評價(jià)函數(shù)以及相應(yīng)的完成函數(shù)
研究對象AUVj具有一般性,并不表示特定AUV;所述的P-MAXQ算法理論的工作基本理論包括以下幾個(gè)步驟:
(1)建立執(zhí)行子任務(wù)Mi的狀態(tài)動作序列seq{}:
表示為四元組{子任務(wù),原子動作,前置條件,后置條件},子任務(wù)代表多水下機(jī)器人MAUVS當(dāng)前任務(wù);原子動作代表單個(gè)AUV的動作,每個(gè)子任務(wù)都是由若干個(gè)原子動作完成;前置條件為動作執(zhí)行之前環(huán)境需要滿足的狀態(tài);后置條件為動作執(zhí)行完畢后環(huán)境需滿足的狀態(tài);建立動作預(yù)測表,當(dāng)完成一個(gè)子任務(wù),即seq序列輸入完整后,將seq序列輸入到動作預(yù)測表中,并把seq序列清空,以便于下次執(zhí)行不同的子任務(wù)時(shí)再應(yīng)用;其中,Mi表示第i個(gè)子任務(wù),i為正整數(shù);
(2)SMDP模型說明:
半馬爾可夫決策過程SMDP是對馬爾可夫決策過程MDP的擴(kuò)展,它允許多個(gè)動作的擴(kuò)展,它允許動作在多個(gè)時(shí)間步內(nèi)完成;系統(tǒng)狀態(tài)在動作執(zhí)行時(shí)連續(xù)變化,而不是像馬爾可夫過程一樣,狀態(tài)變化由動作決定;在分層強(qiáng)化學(xué)習(xí)中,所建立的模型都是以半馬爾可夫決策過程為基礎(chǔ)的;一個(gè)SMDP描述成一個(gè)五元組{S,A,P,R,I};其中S,A分別是有限狀態(tài)和動作的集合;P:P(s',N|s,a)表示采取動作a,在N步內(nèi)系統(tǒng)狀態(tài)由s轉(zhuǎn)移到s'的概率;R:S*A→R是獎賞函數(shù),R(s,a)是系統(tǒng)在狀態(tài)s選擇動作a后期望獲得的總的獎賞值,它包含了分析MDP獲得的報(bào)酬的所有必要信息;I是初始的狀態(tài);和MDP一樣,在SMDP中,目的是找到一個(gè)最優(yōu)策略使得獲得的獎賞值最大;
(3)構(gòu)建基于MAUVS的SMDP模型:
將步驟(2)所述SMDP理論擴(kuò)展到MAUVS領(lǐng)域,建立MAUVS SMDP即MSMDP模型;設(shè)AUV之間存在協(xié)作,并且在一定時(shí)間內(nèi)具有相同的完成任務(wù)的能力;MAUVS中的個(gè)體行為彼此之間會有影響,且同一組的AUV在執(zhí)行時(shí)延動作時(shí),這些動作不一定在同一時(shí)間步完成,因此,需要對SMDP中決策時(shí)間的概念進(jìn)行擴(kuò)展;
(4)MSMDP包含七個(gè)組成部分{Ag,S,A,P,R,I,T},各部分定義如下:
Ag是n個(gè)MAUVS的有限集合,對任意AUVj∈Ag存在一個(gè)個(gè)體行為的有限集Aj;聯(lián)合-動作空間中的元素表示AUVj,j=1,2,...,n當(dāng)前執(zhí)行的動作aj;S,P,R,I的定義與SMDP一致;表示采取動作在N步內(nèi)系統(tǒng)狀態(tài)由s轉(zhuǎn)移到s’的概率;因?yàn)榻M成聯(lián)合-動作是時(shí)延的,因此多步轉(zhuǎn)移概率P依賴于怎么定義決策時(shí)刻,即終止方案T;這里T的終止方案采取Tcontinue終止方案,當(dāng)聯(lián)合動作中第一個(gè)動作完成時(shí),其他未完成的動作不被終止,而是繼續(xù)執(zhí)行,只有完成動作的AUV重新選擇動作。
2.根據(jù)權(quán)利要求1所述的一種基于P-MAXQ的多水下機(jī)器人的圍捕方法,其特征在于:所述的MAUVS在圍捕目標(biāo)過程中發(fā)現(xiàn)障礙物,完成以下步驟:
(1)將當(dāng)前遇到障礙的AUV的狀態(tài)s作為前置條件,查詢看當(dāng)前狀態(tài)s的避障策略是否在動作預(yù)測表中,如果在動作預(yù)測表中則執(zhí)行表中的動作直至后置條件滿足;如果不滿足則根據(jù)子任務(wù)和前置條件,計(jì)算出滿足后置條件的狀態(tài)動作序列seq,并將新的seq加入到動作預(yù)測表中;
(2)MAUVS在圍捕目標(biāo)過程中如果沒有發(fā)現(xiàn)障礙物,則根據(jù)當(dāng)前子策略選擇動作a并執(zhí)行。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710606786.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





