[發(fā)明專利]一種基于深度Q學(xué)習(xí)的智能水下機(jī)器人行為體系結(jié)規(guī)劃方法有效
| 申請?zhí)枺?/td> | 201810759163.6 | 申請日: | 2018-07-11 |
| 公開(公告)號: | CN108873687B | 公開(公告)日: | 2020-06-26 |
| 發(fā)明(設(shè)計)人: | 孫玉山;冉祥瑞;張國成;盛明偉;萬磊;王力鋒;程俊涵;焦文龍;王子楷;吳凡宇 | 申請(專利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類號: | G05B13/02 | 分類號: | G05B13/02;G05B13/04;G05B17/02;G05D1/00;G05D1/10 |
| 代理公司: | 哈爾濱市松花江專利商標(biāo)事務(wù)所 23109 | 代理人: | 岳泉清 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區(qū)*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 智能 水下 機(jī)器人 行為 體系 規(guī)劃 方法 | ||
1.一種基于深度Q學(xué)習(xí)的智能水下機(jī)器人行為體系結(jié)構(gòu)規(guī)劃方法,其特征在于,包括以下步驟:
步驟1:AUV行為規(guī)劃體系結(jié)構(gòu)分層設(shè)計;
步驟2:基于深度Q學(xué)習(xí)的行為規(guī)劃及動作規(guī)劃策略設(shè)計;
所述步驟2包括設(shè)計動作集合a,以某一速度前進(jìn)、向左或向右旋轉(zhuǎn)一定角度(0°-90°)、上浮、下潛、后退、停止;定義行為集合為,目標(biāo)跟蹤、路徑跟蹤、避障、目標(biāo)搜索、懸停、定深、定速、定向;定義任務(wù)集合為,區(qū)域檢測、管道檢測、地形掃描、路徑規(guī)劃、壩體掃描、目標(biāo)追蹤、探雷排雷、軍事偵察;
所述步驟2包括建立動作-行為學(xué)習(xí)模型,在仿真環(huán)境中訓(xùn)練智能水下機(jī)器人動作完成行為,根據(jù)當(dāng)前環(huán)境狀態(tài)選擇動作,產(chǎn)生狀態(tài)遷移并得到獎勵值R2,由Q學(xué)習(xí)算法,建立算法更新函數(shù)為
Q1*(st,at)=Q1(st,at)+α(R2+γmaxQ1(st+1,at+1)-Q1(st,at))
式中,s表示狀態(tài),a表示動作,R2為當(dāng)前狀態(tài)所對應(yīng)動作的獎勵值,γ為學(xué)習(xí)參數(shù),根據(jù)情況其值在0到1之間取值,如果γ接近0,機(jī)器人趨于考慮即時獎勵;如果γ接近1,機(jī)器人會更加考慮未來的累計獎勵,α為學(xué)習(xí)率,取0.9;
所述步驟2包括建立水下機(jī)器人任務(wù)-行為的Q學(xué)習(xí)模型為,初始化機(jī)器人行為,根據(jù)當(dāng)前環(huán)境狀態(tài),機(jī)器人選擇行為X,產(chǎn)生狀態(tài)遷移并得到獎勵值R1,建立Q函數(shù)為
Q2*(s′t,Xt)=V(s′t,Xt)+Q2(s′t,Xt)+α(R1+γmaxQ2(s′t+1,Xt+1)-Q2(s′t,Xt))
式中,Xt表示機(jī)器人當(dāng)前所選擇的行為,其產(chǎn)生狀態(tài)遷移并得到獎勵值R1,V(s′t,Xt)表示系統(tǒng)對完成該行為的一系列動作導(dǎo)致環(huán)境狀態(tài)從s轉(zhuǎn)移到s′的累計評價函數(shù)
式中k為系統(tǒng)調(diào)節(jié)參數(shù),根據(jù)獎勵值設(shè)置的大小來確定;
所述步驟2包括訓(xùn)練神經(jīng)網(wǎng)絡(luò),建立損失函數(shù)
通過訓(xùn)練更新網(wǎng)絡(luò)參數(shù)θ使損失函數(shù)L最小,以便當(dāng)前的Q值逼近目標(biāo)Q值。
2.根據(jù)權(quán)利要求1所述的一種基于深度Q學(xué)習(xí)的智能水下機(jī)器人行為體系結(jié)構(gòu)規(guī)劃方法,其特征在于:所述步驟1定義了智能水下機(jī)器人任務(wù)、行為和動作的概念,將水下機(jī)器人需要完成的工作定義為機(jī)器人的任務(wù);將機(jī)器人在水下航行而產(chǎn)生的具體的控制指令定義為動作;將水下機(jī)器人為了完成任務(wù)而產(chǎn)生的一連串動作的集合定義為行為。
3.根據(jù)權(quán)利要求1所述的一種基于深度Q學(xué)習(xí)的智能水下機(jī)器人行為體系結(jié)構(gòu)規(guī)劃方法,其特征在于:所述步驟1將智能水下機(jī)器人的行為規(guī)劃體系結(jié)構(gòu)劃分為三個層次,任務(wù)分解層、行為規(guī)劃層、動作執(zhí)行層,任務(wù)分解層將水下機(jī)器人收到的任務(wù)指令分解為各個行為,行為規(guī)劃層通過獲取到的環(huán)境信息對完成任務(wù)所需要的行為進(jìn)行規(guī)劃,動作執(zhí)行層利用Q學(xué)習(xí)的方法訓(xùn)練機(jī)機(jī)器人動作完成動作規(guī)劃,通過控制水下機(jī)器人執(zhí)行機(jī)構(gòu)產(chǎn)生動作達(dá)到目標(biāo)指令。
4.根據(jù)權(quán)利要求1所述的一種基于深度Q學(xué)習(xí)的智能水下機(jī)器人行為體系結(jié)構(gòu)規(guī)劃方法,其特征在于:所述步驟1中動作執(zhí)行層的學(xué)習(xí)采用離線的方式進(jìn)行,利用強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過程讓機(jī)器人在各種訓(xùn)練場景下進(jìn)行動作嘗試,并根據(jù)動作回報來學(xué)習(xí)最優(yōu)的動作策略,動作執(zhí)行層在取得理想的效果后,進(jìn)行高一級層次的學(xué)習(xí),高層的學(xué)習(xí)在考慮低層信息的同時,更多考慮機(jī)器人當(dāng)前所處的世界環(huán)境信息,根據(jù)環(huán)境信息學(xué)習(xí)行為策略。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810759163.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





