[發(fā)明專利]基于雙神經(jīng)網(wǎng)絡強化學習的自主水下航行器路徑規(guī)劃方法有效
| 申請?zhí)枺?/td> | 202110253524.1 | 申請日: | 2021-03-09 |
| 公開(公告)號: | CN113064422B | 公開(公告)日: | 2022-06-28 |
| 發(fā)明(設計)人: | 黃浩乾;李光輝;韓亦鳴;王冰 | 申請(專利權(quán))人: | 河海大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210024 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 神經(jīng)網(wǎng)絡 強化 學習 自主 水下 航行 路徑 規(guī)劃 方法 | ||
1.一種基于雙神經(jīng)網(wǎng)絡強化學習的自主水下航行器路徑規(guī)劃方法,其特征在于,包括以下步驟:
(1)對Q-learning學習算法中存在的需要存儲空間大和查找時間長的問題進行優(yōu)化處理;
(2)在Q-learning學習算法的基礎上融入目標網(wǎng)絡和基于“優(yōu)先級”的記憶池經(jīng)驗回放技術(shù)得到雙神經(jīng)網(wǎng)絡強化學習算法,并構(gòu)建基于雙神經(jīng)網(wǎng)絡強化學習算法的AUV智能路徑規(guī)劃框架;
(3)量化處理AUV的環(huán)境狀態(tài)信息,將其與DQN算法相結(jié)合得到神經(jīng)網(wǎng)絡結(jié)構(gòu),并判斷AUV運動方向與目標點位置關(guān)系,得到AUV智能規(guī)劃路徑的決策模型;
Q-learning學習算法將AUV當前狀態(tài)st和執(zhí)行動作at構(gòu)成一張Q值表,命名為QNet,用于存放AUV每一時刻的狀態(tài)和執(zhí)行動作;然后根據(jù)Q值表來選取能夠獲得最大收益的下一步動作at+1,在此基礎上優(yōu)化Q-learning學習算法就是根據(jù)AUV當前所處的環(huán)境信息去除Q值表中的無效動作,來減少Q(mào)值表所需的存儲空間和查找Q值表所需要的時間;
所述步驟(2)包括以下步驟:
(21)在優(yōu)化后的Q-learning學習算法的基礎上融入目標網(wǎng)絡構(gòu)成兩個淺層神經(jīng)網(wǎng)絡:
Qt+1(s,a)=Qt(s,a;θ)+β(r+γmax Qt(st+1,at+1;θt)-Qt(st,at;θ)) (2)
其中,Qt+1(s,a)為根據(jù)Q值更新公式得到的目標函數(shù)值;Qt(s,a)為根據(jù)st和at擬合出的當前函數(shù)值;β為學習率;r為即時反饋值;γ為折價系數(shù);a為在狀態(tài)s下AUV執(zhí)行的動作;
(22)對記憶池進行初始化,并且利用參數(shù)θ初始化QNet網(wǎng)絡,利用參數(shù)θt初始化目標網(wǎng)絡Aim Net;θ為QNet中函數(shù)值的向量表示;θt為Aim Net中函數(shù)值的向量表示;
(23)將AUV的狀態(tài)信息定義為其周圍障礙物信息加上其本身的姿態(tài)信息,初始化AUV開始狀態(tài)信息為s0,初始化AUV此后每一時刻的當前狀態(tài)信息為st,時間為t;
(24)根據(jù)AUV當前狀態(tài)信息st選擇動作at:AUV的動作由QNet根據(jù)當前輸入狀態(tài)信息st下的預測值,選擇神經(jīng)網(wǎng)絡輸出層最大的Q值對應的動作at作為最優(yōu)動作;
(25)執(zhí)行動作at后,AUV的狀態(tài)轉(zhuǎn)移到下一狀態(tài)信息st+1,并通過環(huán)境信息以及動作信息at和狀態(tài)信息st+1的反饋,獲得即時反饋值rt;
(26)AUV在每次執(zhí)行動作之后都會得到一組樣本信息(st,at,rt,st+1),將樣本信息存放到記憶池中,然后構(gòu)造優(yōu)先級數(shù)組來存放樣本信息的優(yōu)先級和位置索引信息;其中st為當前時刻AUV的狀態(tài);at為當前時刻狀態(tài)下AUV執(zhí)行的動作;st+1為執(zhí)行動作at后AUV的狀態(tài);rt為根據(jù)環(huán)境信息以及動作信息at和狀態(tài)信息st+1獲得的即時反饋值;
(27)獲得一定數(shù)目的樣本信息后,判斷記憶池中的樣本數(shù)量是否達到初始化權(quán)值θ,若達到θ則開始訓練模型,若沒達到則繼續(xù)收集樣本信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學,未經(jīng)河海大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110253524.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:圓筒內(nèi)壁貼片裝置
- 下一篇:一種用于廣告板加工的印花設備
- 硬件神經(jīng)網(wǎng)絡轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡
- 神經(jīng)網(wǎng)絡的生成方法、生成裝置和電子設備
- 一種舌診方法、裝置、計算設備及計算機存儲介質(zhì)
- 學習神經(jīng)網(wǎng)絡結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設備
- 一種適應目標數(shù)據(jù)集的網(wǎng)絡模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡的處理器及其操作方法、電氣設備
- 一種圖像神經(jīng)網(wǎng)絡結(jié)構(gòu)的優(yōu)化方法及裝置





