[發明專利]一種通過虛擬環境建立自主移動機器人導航系統的方法在審
| 申請號: | 201910072228.4 | 申請日: | 2019-01-25 |
| 公開(公告)號: | CN109782600A | 公開(公告)日: | 2019-05-21 |
| 發明(設計)人: | 董愛華;石遠;張玨;李揚 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 翁若瑩;柏子雵 |
| 地址: | 201600 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 導航機器人 強化學習 虛擬環境 移動機器人 導航系統 未知環境 構建 自主移動機器人 智能導航系統 機器人智能 神經網絡 網絡參數 虛擬移動 起止點 一站式 智能體 漸進 算法 遷移 更新 | ||
本發明公開了基于深度強化學習的導航機器人在未知環境下建立導航的方法。所述方法通過以下方式實現:首先對虛擬環境、虛擬移動機器人智能體狀態、起止點信息和行為進行表達,然后構建基于DQN算法的深度強化學習結構,對虛擬環境下移動機器人智能體進行訓練,更新DQN網絡參數,最后將訓練策略通過漸進神經網絡遷移,構建移動機器人智能導航系統。本發明提出的基于深度強化學習的導航機器人在未知環境下建立導航的方法不僅具有較好的靈活性和通用性,建立了針對導航機器人建立導航系統的完整的一站式解決方案。
技術領域
本發明涉及一種基于深度強化學習的導航機器人在未知環境建立導航的方法,屬于機器人導航避障領域。
背景技術
機器人的智能導航是機器人研究中的一項至關重要的研究內容,是指移動機器人在未知環境中,能通過自主學習自主規劃出一條安全快速抵達目的地的無碰路線。
目前基于未知環境的移動機器人的導航一般采用局部路徑規劃的方法,其方法大部分需要全部或者部分的先驗環境知識以及相應的訓練數據,因此靈活性不足,無法良好地應對動態場景。
基于部分可觀察馬爾科夫決策過程建模的強化學習方法采用試錯學習的方式進行最優策略的迭代,因此在消耗資源較多的場景中,對數據的利用率很低,損失較大。而在真實環境下往往難以有效地在線獲得如此大量的訓練數據。
發明內容
本發明的目的是:提供一種基于深度強化學習算法,通過虛擬環境模擬訓練自主移動機器人并建立其應用于硬件平臺的導航系統的方法。
為了達到上述目的,本發明的技術方案是提供了一種通過虛擬環境建立自主移動機器人導航系統的方法,其特征在于,包括以下步驟:
步驟1、對虛擬環境狀態、虛擬移動機器人智能體狀態、起始點信息、目標點信息和行為進行表達,構建富環境客戶端;
步驟2、構建深度強化學習結構,通過服務器端-富環境客戶端的交互方式完成對虛擬環境下移動機器人智能體的訓練,獲取最優策略,深度強化學習結構的輸入為通過安裝在機器人上的攝像頭傳感器采集到的圖像信息,深度強化學習結構的輸出為移動機器人的控制行為;
步驟3、將訓練得到的最優策略通過遷移學習構建真實環境移動機器人智能導航系統。
優選地,所述步驟1包括:
步驟101、利用在富環境客戶端運行的反映真實世界的三維仿真環境,模擬移動機器人與真實環境的交互,給予虛擬移動機器人智能體環境狀態信息及回報信息;
步驟102、設定虛擬移動機器人智能體可感知環境范圍為攝像頭傳感器的可視范圍,攝像頭傳感器固定在智能體上,可觀察智能體前方虛擬場景信息。
優選地,步驟2中,所述深度強化學習結構基于DQN算法,則步驟2包括以下步驟:
步驟201、對安裝在機器人上的攝像頭傳感器采集到的圖像信息進行數據的預處理,將圖像信息轉換為灰度圖像,并將連續N幀圖像作為深度強化學習結構的輸入;
步驟202、深度強化學習結構利用神經網絡擬合價值模型值函數,深度強化學習結構的模型主體采用卷積神經網絡的結構,該卷積神經網絡由N個卷積層、M個全連接層組成,激活函數均為Relu函數;
步驟203、步驟201得到的連續N幀圖像首先通過深度強化學習結構中N個卷積層,然后通過M個全連接層后得到行動的價值估計,對應虛擬移動機器人的可行的行動。
優選地,所述服務器與所述富環境客戶端使用Socket實現基于TCP/IP協議的網絡功能,使服務器與客戶端可以雙向通信。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910072228.4/2.html,轉載請聲明來源鉆瓜專利網。





