[發明專利]一種基于深度強化學習的智能體自主導航方法有效
| 申請號: | 202011023274.4 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112179367B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 彭小紅;陳亮;陳榮發;張軍;梁子祥;史文杰;黃文;陳劍勇;黃曾祺;余應淮 | 申請(專利權)人: | 廣東海洋大學 |
| 主分類號: | G01C21/34 | 分類號: | G01C21/34;G06N3/0464;B63C11/52 |
| 代理公司: | 廣州智豐知識產權代理事務所(普通合伙) 44655 | 代理人: | 邱奕才 |
| 地址: | 524000 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 智能 自主 導航 方法 | ||
1.一種基于深度強化學習的智能體自主導航方法,其特征在于,包括以下步驟:
S1.構建智能體自主導航系統,所述智能體自主導航系統采用MS-DDQN算法,即面向多步機制的DDQN算法;所述MS-DDQN算法采用模塊化的神經網絡,所述模塊化的神經網絡包括局部避障深度神經網絡模塊、全局導航深度神經網絡模塊和指令選擇模塊;所述局部避障深度神經網絡模塊用于指導智能體遠離障礙物,所述全局導航深度神經網絡模塊用于指導智能體朝著更近的路徑前往目標位置,所述指令選擇模塊用于確定最終執行的動作指令;
S2.搭建仿真環境,包括構建障礙物環境模型和搭建仿真智能體;
S3.將所述自主導航系統置于所述仿真環境中進行訓練,即所述智能體在所述仿真環境中采用所述MS-DDQN算法進行訓練學習;所述仿真環境為多個,所述每個仿真環境的訓練次數為多次;
S4.將訓練好的所述自主導航系統裝載到所述智能體上,所述智能體獲得自主導航的能力;
所述MS-DDQN算法包括當前值網絡、目標值網絡、誤差函數、獎勵函數和經驗池,所述當前值網絡用來選擇動作,所述目標值網絡用來評價動作,所述誤差函數用來更新權重,所述獎勵函數是指智能體在當前狀態下采取某一行動并到達下一個狀態獲得的獎勵值,所述經驗池用來存儲每走一步所產生的樣本數據。
2.根據權利要求1所述的一種基于深度強化學習的智能體自主導航方法,其特征在于,所述目標值網絡的輸出函數為:
其中γ為折扣因子,γi表示的第t+i狀態獲得的獎勵值rt+i對當前t狀態的影響程度,且γ是小于1大于0的值,γλ表示第t+λ狀態獲得的獎勵值rt+λ對當前t狀態的影響程度;Q為狀態-動作價值估計值,λ為間隔的步數,st為當前狀態,at為當前狀態執行的動作,rt表示在t時刻智能體獲得的及時獎勵值,rr+λ為在λ狀態時獲得的獎勵值,st+λ為間隔λ步的狀態;θ為當前值網絡中的權重參數,θ'為目標值網絡中的權重參數;i就是從t狀態開始后每個狀態獲得的獎勵值的下標;Q(st+λ,a,θ)表示當前值神經網絡根據輸入信息(st+λ,a),輸出每個動作的估計值;Qtarget(st+λ,argmaxQ(st+λ,a,θ)),表示首先選擇當前值網絡輸出的估計值的最大值對應的動作指令和st+λ作為目標值網絡的輸入信息,目標值網絡輸出每個動作的估計值;
損失函數為:
其中E為神經網絡誤差,s為狀態,a為執行的動作,θ為當前值網絡中的權重參數,Q為狀態-動作價值估計值,Q(s,a,θ)表示當前值神經網絡輸出每個動作的估計值;
所述經驗池存放的數據為:
其中t為某時刻,s為狀態,i就是從t狀態開始后每個狀態獲得的獎勵值得下標;st為當前狀態,a為執行的動作,at表示t時刻執行動作,rt表示在t時刻智能體獲得的及時獎勵值;γ為折扣因子,γi表示的第t+i狀態獲得的獎勵值rt+i對當前t狀態的影響程度,且γ是小于1大于0的值;λ為間隔的步數,st+λ為間隔λ步后的狀態。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東海洋大學,未經廣東海洋大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011023274.4/1.html,轉載請聲明來源鉆瓜專利網。





