[發(fā)明專利]一種基于P-MAXQ的多水下機(jī)器人的圍捕方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710606786.5 | 申請(qǐng)日: | 2017-07-24 |
| 公開(公告)號(hào): | CN107844460B | 公開(公告)日: | 2020-12-25 |
| 發(fā)明(設(shè)計(jì))人: | 孟宇龍;張朦朦;張子迎;徐東;姬少培;李賢;呂駿;王杰;方一成;王巖俊 | 申請(qǐng)(專利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類號(hào): | G06F17/18 | 分類號(hào): | G06F17/18;G06Q10/04;B25J9/16 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區(qū)*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 maxq 水下 機(jī)器人 圍捕 方法 | ||
本發(fā)明公開了一種基于P?MAXQ的多水下機(jī)器人的圍捕方法,該方法采用概率統(tǒng)計(jì)Bayes公式和MAXQ算法結(jié)合的行為預(yù)測(cè)方法,并建立了相應(yīng)的預(yù)測(cè)P?MAXQ(Predication MAXQ)算法理論;在P?MAXQ理論建立了基礎(chǔ)上構(gòu)建了動(dòng)作狀態(tài)預(yù)測(cè)表;并且在P?MAXQ中增加了即時(shí)評(píng)價(jià)函數(shù)以及相應(yīng)的完成函數(shù)使得MAUVS在圍捕過程中行為得到即時(shí)的調(diào)整,因此,本發(fā)明一種基于P?MAXQ的多水下機(jī)器人的圍捕方法,提高整個(gè)MAUVS系統(tǒng)圍捕時(shí)的準(zhǔn)確率,進(jìn)而提高M(jìn)AUVS的分工和協(xié)作的效率。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)軟件技術(shù)領(lǐng)域,具體涉及一種基于P-MAXQ的多水下機(jī)器人(Multiple Autonomous Underwater Vehicles System,MAUVS)的圍捕方法。
背景技術(shù)
近年來,基于行為的移動(dòng)機(jī)器人系統(tǒng)因其具有突出的魯棒性、容錯(cuò)性及靈活性等優(yōu)點(diǎn),獲得了越來越多的關(guān)注。多機(jī)器人系統(tǒng)是典型的多Agent系統(tǒng),在非結(jié)構(gòu)化環(huán)境中如何有效組織協(xié)調(diào)多個(gè)機(jī)器人完成復(fù)雜任務(wù),已成為人工智能和機(jī)器人學(xué)研究的熱點(diǎn)問題。但是一個(gè)很重要的問題是,隨著機(jī)器人數(shù)目的增多,受到系統(tǒng)中的有限資源的限制,甚至?xí)l(fā)生死鎖導(dǎo)致整個(gè)多機(jī)器人系統(tǒng)癱瘓。為保證強(qiáng)化學(xué)習(xí)的收斂性,難免要采取組合動(dòng)作,有時(shí)還需采用組合狀態(tài),這樣的情況下,每個(gè)智能體的Q值表都是組合狀態(tài)到組合動(dòng)作的映射,學(xué)習(xí)空間的規(guī)模是機(jī)器人個(gè)數(shù)的指數(shù)函數(shù),因此,它所具有的動(dòng)作空間和狀態(tài)空間都異常龐大,會(huì)造成維數(shù)災(zāi)難問題,而且學(xué)習(xí)速度及其慢,迫切需要加速的方法來支持,以提高多機(jī)器人強(qiáng)化學(xué)習(xí)算法的收斂速度。
近年來,一些多層前饋神經(jīng)網(wǎng)絡(luò)已用于實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)算法,但是,神經(jīng)網(wǎng)絡(luò)不能利用經(jīng)驗(yàn)知識(shí),使得網(wǎng)絡(luò)學(xué)習(xí)時(shí)間較長(zhǎng),也較難收斂到全局極值,基于FIS的Q學(xué)習(xí)算法也已提出,但是FIS的自學(xué)習(xí)能力和自適應(yīng)能力較差。專利公開號(hào)CN101587329提出一種機(jī)器人預(yù)測(cè)的方法和系統(tǒng),它根據(jù)此刻機(jī)器人在作業(yè)場(chǎng)景中的位姿信息和多個(gè)自由度的角度信息來預(yù)測(cè)下一時(shí)刻機(jī)器人的位姿信息和多個(gè)自由度的角度信息,這種方法雖然在機(jī)器人預(yù)測(cè)中取得良好的效果,但是沒有考慮到機(jī)器人的自主學(xué)習(xí)性能,智能化學(xué)習(xí)程度不夠,而且預(yù)測(cè)的結(jié)果是根據(jù)上一時(shí)刻執(zhí)行結(jié)果得來,會(huì)造成空間復(fù)雜度增加,因此亟須提出一種更優(yōu)的、動(dòng)態(tài)性更好的圍捕策略研究。
發(fā)明內(nèi)容
本發(fā)明目的是為了解決多水下機(jī)器人MAUVS在圍捕運(yùn)行過程中隨著學(xué)習(xí)時(shí)間的推移或者M(jìn)AUVS團(tuán)隊(duì)中AUV數(shù)量的增多,會(huì)導(dǎo)致狀態(tài)空間集成指數(shù)型增加,造成維數(shù)災(zāi)難問題,提出了一種基于P-MAXQ的多水下機(jī)器人的圍捕方法。
本發(fā)明為了實(shí)現(xiàn)上述目的,采用以下技術(shù)方案實(shí)現(xiàn):
一種基于P-MAXQ的多水下機(jī)器人的圍捕方法,該方法采用概率統(tǒng)計(jì)Bayes公式和MAXQ算法結(jié)合的行為預(yù)測(cè)方法,并建立了相應(yīng)的預(yù)測(cè)P-MAXQ(Predication MAXQ)算法理論;在P-MAXQ理論建立了基礎(chǔ)上構(gòu)建了動(dòng)作狀態(tài)預(yù)測(cè)表;并且在P-MAXQ中增加了即時(shí)評(píng)價(jià)函數(shù)以及相應(yīng)的完成函數(shù)
所述的研究對(duì)象為AUVj具有一般性,并不表示特定AUV,以下括號(hào)里出現(xiàn)的i表示子任務(wù)或者分層下的子動(dòng)作;所述的P-MAXQ算法理論的工作基本理論包括以下幾個(gè)步驟:
(1)建立執(zhí)行子任務(wù)Mi的狀態(tài)動(dòng)作序列seq{}:
表示為四元組{子任務(wù),原子動(dòng)作,前置條件,后置條件},子任務(wù)代表多水下機(jī)器人(MAUVS)當(dāng)前任務(wù);原子動(dòng)作代表單個(gè)AUV的動(dòng)作(如左行、右行、前行、后行以及停止),每個(gè)子任務(wù)都是由若干個(gè)原子動(dòng)作完成;前置條件為動(dòng)作執(zhí)行之前環(huán)境需要滿足的狀態(tài);后置條件為動(dòng)作執(zhí)行完畢后環(huán)境需滿足的狀態(tài);建立動(dòng)作預(yù)測(cè)表,當(dāng)完成一個(gè)子任務(wù),即seq序列輸入完整后,將seq序列輸入到動(dòng)作預(yù)測(cè)表中,并把seq序列清空,以便于下次執(zhí)行不同的子任務(wù)使再應(yīng)用;其中,Mi表示第i個(gè)子任務(wù),i為正整數(shù);
(2)SMDP模型說明:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710606786.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 面向復(fù)雜系統(tǒng)中的MAXQ任務(wù)圖結(jié)構(gòu)的自動(dòng)發(fā)現(xiàn)方法
- 基于因果圖的分層強(qiáng)化學(xué)習(xí)任務(wù)圖進(jìn)化方法
- 酒店自動(dòng)調(diào)價(jià)方法及系統(tǒng)
- 一種芯片安全硬盤結(jié)構(gòu)
- 一種計(jì)及削峰填谷的并網(wǎng)型微電網(wǎng)可靠性評(píng)估方法
- 一種基于P-MAXQ的多水下機(jī)器人的圍捕方法
- 一種雙側(cè)血壓測(cè)量?jī)x器及其控制方法
- 一種PID柴油發(fā)動(dòng)機(jī)自適應(yīng)電子調(diào)速方法
- 一種雙側(cè)血壓測(cè)量?jī)x器





