[發明專利]基于深度強化學習的智能移動平臺無地圖自主導航方法在審
| 申請號: | 201911312270.5 | 申請日: | 2019-12-18 |
| 公開(公告)號: | CN111141300A | 公開(公告)日: | 2020-05-12 |
| 發明(設計)人: | 裴必超;夏秀炎;魏揚帆 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G01C21/34 | 分類號: | G01C21/34 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 封睿 |
| 地址: | 210094 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 智能 移動 平臺 地圖 自主 導航 方法 | ||
本發明公開了一種基于深度強化學習的智能移動平臺無地圖自主導航方法,在AI2?THOR仿真框架中選取導航場景;構建基于Actor?Critic框架的深度強化學習模型;根據動作概率分布進行移動平臺與導航場景的動作交互,更新獎勵值和當前觀測信息,若當前觀測信息與目標圖像信息匹配,或達到最大移動步數,或連續采取動作數達到設定步數,則更新模型參數,否則繼續動作交互;構建Actor?Critic網絡的損失函數,采用異步優勢算法A3C訓練更新深度強化學習模型;重復訓練,直至訓練步數達到設定閾值;獲取實際導航場景的初始觀測信息與目標圖像,利用訓練好的模型進行導航,規劃智能移動平臺的導航路徑。本發明無需提前構建環境模型,即可實現顯示環境的導航。
技術領域
本發明涉及視覺導航領域,特別涉及一種基于深度強化學習的智能移動平臺無地圖自主導航方法。
背景技術
導航是智能移動平臺的基本能力之一,是智能移動平臺能夠在環境中實現自主移動的前提。傳統的導航技術往往要求移動平臺攜帶大量的傳感器去感知環境,預先構建導航場景的全局地圖,該方法在環境發生變化時需要重新建立連通模型,實用性不強。結合深度神經網絡的強化學習作為一種自學習能力較強的機器學習方法,相較于傳統的導航策略,非常符合智能移動平臺合理處理各種環境情況的需求。但采用深度強化學習策略的問題在于兩個方面。首先,盡管一些論文認為在真實環境中使用深度強化學習對模型進行訓練是可行的,但這種方法代價高昂,因為在真實環境中訓練智能移動平臺實體是非常耗時的,且有效數據集采集難度大。其次,視覺導航領域的標準強化學習算法往往針對某一個目標來訓練模型的,在更換導航目標時,模型失效,需要重新訓練,即目標被硬編碼為網絡參數的一部分,這種做法時間成本高,且通用性低。
發明內容
本發明的目的在于提供一種基于深度強化學習的智能移動平臺無地圖自主導航方法。
實現本發明目的的技術解決方案為:一種基于深度強化學習的智能移動平臺無地圖自主導航方法,包括如下步驟:
步驟1,在AI2-THOR仿真框架中選取導航場景,并確定智能移動平臺的初始位置、初始觀測信息、導航目標、動作空間與獎懲機制;
步驟2,以移動平臺對導航環境的觀測信息與目標圖像信息為輸入,以在動作空間上的概率分布與當前狀態的價值為輸出,構建基于Actor-Critic框架的深度強化學習模型,進行動作預測;
步驟3,根據動作概率分布進行移動平臺與導航場景的動作交互,更新獎勵值和當前觀測信息,若當前觀測信息與目標圖像信息匹配,或達到最大移動步數,或連續采取動作數達到設定步數,則進入步驟4;否則轉至步驟2;
步驟4,根據最終獲得的獎勵值和狀態價值構建Actor-Critic網絡的損失函數,采用異步優勢算法A3C訓練更新深度強化學習模型;
步驟5,重復步驟2~4,繼續針對該目標圖像進行訓練,直至訓練步數達到設定閾值;
步驟6,獲取實際導航場景的初始觀測信息與目標圖像,利用訓練好的模型進行導航,規劃智能移動平臺的導航路徑。
與現有技術相比,本發明的顯著優點在于:1)通過將導航目標作為網絡輸入,避免了導航目標更換時模型的重訓練問題,且訓練好的模型對未經過訓練的目標有較高的泛化性能;2)采用AI2-THOR仿真環境訓練模型,訓練樣本的采集更高效,且訓練好的模型經過少量參數微調后能直接應用于現實環境,模型的遷移性遷移性與實用性更高;3)采用LSTM層記錄歷史決策,提升了模型的收斂能力,訓練好的模型能以更少的步數到達導航目標。
附圖說明
圖1為本發明基于Actor-Critic框架的深度強化學習模型的結構圖。
圖2為本發明智能移動平臺執行動作后當前觀測信息改變的示意圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911312270.5/2.html,轉載請聲明來源鉆瓜專利網。





