[發明專利]基于深度強化學習的視覺導航方法及系統有效
| 申請號: | 201811622803.5 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109682392B | 公開(公告)日: | 2020-09-01 |
| 發明(設計)人: | 張偉;饒振環;吳悅晨;宋柯;魯威志 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G01C21/36 | 分類號: | G01C21/36;G01C21/34;G06N3/04;G06N3/08 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 視覺 導航 方法 系統 | ||
1.基于深度強化學習的視覺導航方法,其特征是,包括:
隨機初始化機器人的起始位置并設定目標位置的圖像,然后將起始位置的實際圖像與目標位置的實際圖像均輸入到訓練好的基于A3C的神經網絡,根據基于A3C的神經網絡輸出的概率分布,選擇概率最大值對應的動作作為機器人的下一個執行動作,直到機器人到達目標位置;
基于A3C的神經網絡的訓練過程為:
步驟(1):選取導航場景和導航目標,將導航場景網格化,機器人的初始位置為網格上的隨機一個網格點;選取網格化的導航場景中的某個點作為導航目標,將機器人視為智能體;
步驟(2):設定視覺導航任務為尋找機器人由初始位置到導航目標位置的導航路徑;
預先在導航目標位置的設定方向拍攝目標圖像;
構建視覺導航任務的馬爾可夫決策過程模型,在馬爾可夫決策過程模型中,設定機器人的每執行一個動作就拍攝一張當前視野范圍內的圖像、設定可執行的動作、動作所對應的執行條件并設定機器人每執行一個動作獲得的獎勵;
步驟(3):構建智能體的神經網絡模型;所述智能體的神經網絡模型,包括:相互交叉的基于A3C的神經網絡和基于逆動態模型的神經網絡;
步驟(4):智能體從導航場景中采集訓練數據;采集訓練數據的過程中,基于A3C的神經網絡輸出的下一個動作的概率分布,選擇最大概率對應的動作作為智能體下一個時刻執行的動作;每采集N個時間步的樣本就進入步驟(5);
步驟(5):利用步驟(4)采集到的訓練樣本訓練智能體的神經網絡;包括步驟(51)和步驟(52);所述步驟(51)和步驟(52)是同時進行,且同時結束并進入步驟(6)的;
步驟(51):利用采集到的訓練樣本訓練基于逆動態模型的神經網絡,進入步驟(6);
步驟(52):利用采集到的訓練樣本訓練基于A3C的神經網絡,進入步驟(6);
步驟(6):當采集并訓練的樣本的數目均到達設定閾值時,訓練結束,得到訓練好的基于A3C的神經網絡;否則,返回步驟(4)繼續采集訓練樣本。
2.如權利要求1所述的方法,其特征是,
所述步驟(2)中構建視覺導航任務的馬爾可夫決策過程模型:M,包括狀態、動作和獎勵;其中,
狀態是指機器人視野范圍內的圖像,機器人當前視野范圍內的圖像被稱之為當前狀態;在當前狀態下,機器人執行一個動作后的視野范圍內的圖像,稱之為下一時刻的狀態;目標圖像是指機器人在導航目標位置所拍攝的圖像,目標圖像被稱之為目標狀態;
動作是指機器人在每個時間間隔內選取的動作,所述動作,包括:前進一步、左轉90度或右轉90度;前進一步的步長為單個網格的長度;機器人在當前狀態下采取的動作為當前動作,在上一時刻采取的動作為上一時刻的動作;
獎勵是指機器人采取某個動作后,若到達導航目標位置且拍攝的視野范圍內的圖像與目標圖像一致,則獲得的獎勵值為1;若未到達目標狀態,則獲得的獎勵值為0;
時間步:在當前狀態下,機器人采取動作后,獲得下一時刻的狀態,將這個過程所用時間長度稱之為一個時間步長,簡稱時間步。
3.如權利要求1所述的方法,其特征是,
所述智能體的神經網絡模型的結構包括:兩條并發的通道,通道之間互有交叉;
其中,第一個通道包括:依次連接的第一卷積層、第二卷積層、第一全連接層、第二全連接層、第三全連接層和第一輸出層;
第二個通道包括:依次連接的第三卷積層、第四卷積層、第四全連接層、第一長短期記憶單元層和第二輸出層;
所述第一全連接層和第四全連接層的輸出端均與第二全連接層的輸入端連接;
所述第二全連接層的輸出端與第二輸出層的輸入端連接;
基于A3C的神經網絡由兩個通道中除第一個通道中的第三全連接層和第一輸出層外的其他網絡組成;逆動態模型的神經網絡由兩個通道中除第二個通道中的第一長短期記憶單元層和第二輸出層外的其他網絡組成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811622803.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:調節地圖應用的顯示的方法
- 下一篇:一種導航導游方法、導航導游終端





