[發(fā)明專利]一種基于P-MAXQ的多水下機(jī)器人的圍捕方法有效

申請?zhí)枺?/td>	201710606786.5	申請日：	2017-07-24
公開（公告）號：	CN107844460B	公開（公告）日：	2020-12-25
發(fā)明（設(shè)計(jì)）人：	孟宇龍;張朦朦;張子迎;徐東;姬少培;李賢;呂駿;王杰;方一成;王巖俊	申請（專利權(quán)）人：	哈爾濱工程大學(xué)
主分類號：	G06F17/18	分類號：	G06F17/18;G06Q10/04;B25J9/16
代理公司：	暫無信息	代理人：	暫無信息
地址：	150001 黑龍江省哈爾濱市南崗區(qū)***	國省代碼：	黑龍江;23
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于 maxq 水下機(jī)器人圍捕方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于P-MAXQ的多水下機(jī)器人的圍捕方法，其特征在于：該方法采用概率統(tǒng)計(jì)Bayes公式和MAXQ算法結(jié)合的行為預(yù)測方法，并建立了相應(yīng)的預(yù)測P-MAXQ算法理論；在P-MAXQ算法理論基礎(chǔ)上構(gòu)建了動作預(yù)測表；并且在P-MAXQ中增加了即時(shí)評價(jià)函數(shù)以及相應(yīng)的完成函數(shù)

研究對象AUV_j具有一般性，并不表示特定AUV；所述的P-MAXQ算法理論的工作基本理論包括以下幾個(gè)步驟：

(1)建立執(zhí)行子任務(wù)M_i的狀態(tài)動作序列seq{}：

表示為四元組{子任務(wù)，原子動作，前置條件，后置條件}，子任務(wù)代表多水下機(jī)器人MAUVS當(dāng)前任務(wù)；原子動作代表單個(gè)AUV的動作，每個(gè)子任務(wù)都是由若干個(gè)原子動作完成；前置條件為動作執(zhí)行之前環(huán)境需要滿足的狀態(tài)；后置條件為動作執(zhí)行完畢后環(huán)境需滿足的狀態(tài)；建立動作預(yù)測表，當(dāng)完成一個(gè)子任務(wù)，即seq序列輸入完整后，將seq序列輸入到動作預(yù)測表中，并把seq序列清空，以便于下次執(zhí)行不同的子任務(wù)時(shí)再應(yīng)用；其中，M_i表示第i個(gè)子任務(wù)，i為正整數(shù)；

(2)SMDP模型說明：

半馬爾可夫決策過程SMDP是對馬爾可夫決策過程MDP的擴(kuò)展，它允許多個(gè)動作的擴(kuò)展，它允許動作在多個(gè)時(shí)間步內(nèi)完成；系統(tǒng)狀態(tài)在動作執(zhí)行時(shí)連續(xù)變化，而不是像馬爾可夫過程一樣，狀態(tài)變化由動作決定；在分層強(qiáng)化學(xué)習(xí)中，所建立的模型都是以半馬爾可夫決策過程為基礎(chǔ)的；一個(gè)SMDP描述成一個(gè)五元組{S，A，P，R，I}；其中S，A分別是有限狀態(tài)和動作的集合；P:P(s',N|s,a)表示采取動作a，在N步內(nèi)系統(tǒng)狀態(tài)由s轉(zhuǎn)移到s'的概率；R:S*A→R是獎賞函數(shù)，R(s,a)是系統(tǒng)在狀態(tài)s選擇動作a后期望獲得的總的獎賞值，它包含了分析MDP獲得的報(bào)酬的所有必要信息；I是初始的狀態(tài)；和MDP一樣，在SMDP中，目的是找到一個(gè)最優(yōu)策略使得獲得的獎賞值最大；

(3)構(gòu)建基于MAUVS的SMDP模型：

將步驟(2)所述SMDP理論擴(kuò)展到MAUVS領(lǐng)域，建立MAUVS SMDP即MSMDP模型；設(shè)AUV之間存在協(xié)作，并且在一定時(shí)間內(nèi)具有相同的完成任務(wù)的能力；MAUVS中的個(gè)體行為彼此之間會有影響，且同一組的AUV在執(zhí)行時(shí)延動作時(shí)，這些動作不一定在同一時(shí)間步完成，因此，需要對SMDP中決策時(shí)間的概念進(jìn)行擴(kuò)展；

(4)MSMDP包含七個(gè)組成部分{A_g，S，A，P，R，I，T}，各部分定義如下：

A_g是n個(gè)MAUVS的有限集合，對任意AUV_j∈A_g存在一個(gè)個(gè)體行為的有限集A^j；聯(lián)合-動作空間中的元素表示AUV_j，j＝1，2，...，n當(dāng)前執(zhí)行的動作a^j；S，P，R，I的定義與SMDP一致；表示采取動作在N步內(nèi)系統(tǒng)狀態(tài)由s轉(zhuǎn)移到s’的概率；因?yàn)榻M成聯(lián)合-動作是時(shí)延的，因此多步轉(zhuǎn)移概率P依賴于怎么定義決策時(shí)刻，即終止方案T；這里T的終止方案采取T_continue終止方案，當(dāng)聯(lián)合動作中第一個(gè)動作完成時(shí)，其他未完成的動作不被終止，而是繼續(xù)執(zhí)行，只有完成動作的AUV重新選擇動作。

2.根據(jù)權(quán)利要求1所述的一種基于P-MAXQ的多水下機(jī)器人的圍捕方法，其特征在于：所述的MAUVS在圍捕目標(biāo)過程中發(fā)現(xiàn)障礙物，完成以下步驟：

(1)將當(dāng)前遇到障礙的AUV的狀態(tài)s作為前置條件，查詢看當(dāng)前狀態(tài)s的避障策略是否在動作預(yù)測表中，如果在動作預(yù)測表中則執(zhí)行表中的動作直至后置條件滿足；如果不滿足則根據(jù)子任務(wù)和前置條件，計(jì)算出滿足后置條件的狀態(tài)動作序列seq，并將新的seq加入到動作預(yù)測表中；

(2)MAUVS在圍捕目標(biāo)過程中如果沒有發(fā)現(xiàn)障礙物，則根據(jù)當(dāng)前子策略選擇動作a并執(zhí)行。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué)，未經(jīng)哈爾濱工程大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710606786.5/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種負(fù)載過渡金屬氧化物的鈰基催化劑及其制備方法和用途
下一篇：洗衣-干衣機(jī)

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】