[發(fā)明專利]基于深度強(qiáng)化學(xué)習(xí)的視覺導(dǎo)航方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201811622803.5 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109682392B | 公開(公告)日: | 2020-09-01 |
| 發(fā)明(設(shè)計)人: | 張偉;饒振環(huán);吳悅晨;宋柯;魯威志 | 申請(專利權(quán))人: | 山東大學(xué) |
| 主分類號: | G01C21/36 | 分類號: | G01C21/36;G01C21/34;G06N3/04;G06N3/08 |
| 代理公司: | 濟(jì)南圣達(dá)知識產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強(qiáng)化 學(xué)習(xí) 視覺 導(dǎo)航 方法 系統(tǒng) | ||
本公開公開了基于深度強(qiáng)化學(xué)習(xí)的視覺導(dǎo)航方法及系統(tǒng),包括:隨機(jī)初始化機(jī)器人的起始位置并設(shè)定目標(biāo)位置的圖像,然后將起始位置的實(shí)際圖像與目標(biāo)位置的實(shí)際圖像均輸入到訓(xùn)練好的基于A3C算法的神經(jīng)網(wǎng)絡(luò),根據(jù)基于A3C算法的神經(jīng)網(wǎng)絡(luò)輸出的概率分布,選擇概率最大值對應(yīng)的動作作為機(jī)器人的下一個執(zhí)行動作,直到機(jī)器人到達(dá)目標(biāo)位置。
技術(shù)領(lǐng)域
本公開涉及基于深度強(qiáng)化學(xué)習(xí)的視覺導(dǎo)航方法及系統(tǒng)。
背景技術(shù)
本部分的陳述僅僅是提到了與本公開相關(guān)的背景技術(shù),并不必然構(gòu)成現(xiàn)有技術(shù)。
視覺導(dǎo)航是一項(xiàng)用于確定當(dāng)前位置,然后根據(jù)圖像或者視頻輸入規(guī)劃朝向某些目標(biāo)位置的路徑的智能。由于相機(jī)視角的局限性,每次只能觀察到環(huán)境的一部分,這使得僅依靠視覺輸入來導(dǎo)航非常困難。近年來深度強(qiáng)化學(xué)習(xí)在諸如Atari游戲,電腦圍棋和目標(biāo)定位等領(lǐng)域取得了巨大成功,受此鼓舞,學(xué)界開始使用深度強(qiáng)化學(xué)習(xí)來訓(xùn)練智能體學(xué)會導(dǎo)航到特定目標(biāo)。
目標(biāo)驅(qū)動的導(dǎo)航任務(wù)要求智能體經(jīng)過訓(xùn)練后,能從任意的位置和朝向?qū)Ш降揭幌盗胁煌哪繕?biāo),因此,對于不同的目標(biāo),不必重新訓(xùn)練模型。目前存在一些基于深度強(qiáng)化學(xué)習(xí)的目標(biāo)驅(qū)動導(dǎo)航問題的開創(chuàng)性工作。
據(jù)發(fā)明人了解,在實(shí)施本發(fā)明的過程中,需要解決的技術(shù)問題如下:
首先,由于智能體必須學(xué)會從隨機(jī)狀態(tài)導(dǎo)航到不同的目標(biāo),智能體需要學(xué)習(xí)當(dāng)前狀態(tài)和目標(biāo)、動作之間的關(guān)聯(lián)。其次,智能體與環(huán)境進(jìn)行交互,然后生成與每一個目標(biāo)有關(guān)的樣本。然而,為一個目標(biāo)采集的樣本只能用來訓(xùn)練智能體導(dǎo)航到這個目標(biāo),這是一種樣本效率低下的方式。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的不足,本公開提供了基于深度強(qiáng)化學(xué)習(xí)的視覺導(dǎo)航方法及系統(tǒng);
第一方面,本公開提供了基于深度強(qiáng)化學(xué)習(xí)的視覺導(dǎo)航方法;
基于深度強(qiáng)化學(xué)習(xí)的視覺導(dǎo)航方法,包括:
隨機(jī)初始化機(jī)器人的起始位置并設(shè)定目標(biāo)位置的圖像,然后將起始位置的實(shí)際圖像與目標(biāo)位置的實(shí)際圖像均輸入到訓(xùn)練好的基于A3C算法的神經(jīng)網(wǎng)絡(luò),根據(jù)基于A3C算法的神經(jīng)網(wǎng)絡(luò)輸出的概率分布,選擇概率最大值對應(yīng)的動作作為機(jī)器人的下一個執(zhí)行動作,直到機(jī)器人到達(dá)目標(biāo)位置。
作為一種可能的實(shí)現(xiàn)方式,基于A3C算法的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程為:
步驟(1):選取導(dǎo)航場景和導(dǎo)航目標(biāo),將導(dǎo)航場景網(wǎng)格化,機(jī)器人的初始位置為網(wǎng)格上的隨機(jī)一個網(wǎng)格點(diǎn);選取網(wǎng)格化的導(dǎo)航場景中的某個點(diǎn)作為導(dǎo)航目標(biāo),將機(jī)器人視為智能體;
步驟(2):設(shè)定視覺導(dǎo)航任務(wù)為尋找機(jī)器人由初始位置到導(dǎo)航目標(biāo)位置的導(dǎo)航路徑;
預(yù)先在導(dǎo)航目標(biāo)位置的設(shè)定方向拍攝目標(biāo)圖像;
構(gòu)建視覺導(dǎo)航任務(wù)的馬爾可夫決策過程模型,在馬爾可夫決策過程模型中,設(shè)定機(jī)器人的每執(zhí)行一個動作就拍攝一張當(dāng)前視野范圍內(nèi)的圖像、設(shè)定可執(zhí)行的動作、動作所對應(yīng)的執(zhí)行條件并設(shè)定機(jī)器人每執(zhí)行一個動作獲得的獎勵;
步驟(3):構(gòu)建智能體的神經(jīng)網(wǎng)絡(luò)模型;所述智能體的神經(jīng)網(wǎng)絡(luò)模型,包括:相互交叉的基于A3C算法的神經(jīng)網(wǎng)絡(luò)和基于逆動態(tài)模型的神經(jīng)網(wǎng)絡(luò);
步驟(4):智能體從導(dǎo)航場景中采集訓(xùn)練數(shù)據(jù);采集訓(xùn)練數(shù)據(jù)的過程中,基于A3C算法的神經(jīng)網(wǎng)絡(luò)輸出的下一個動作的概率分布,選擇最大概率對應(yīng)的動作作為智能體下一個時刻執(zhí)行的動作;每采集N個時間步的樣本就進(jìn)入步驟(5);
步驟(5):利用步驟(4)采集到的訓(xùn)練樣本訓(xùn)練智能體的神經(jīng)網(wǎng)絡(luò);包括步驟(51)和步驟(52);所述步驟(51)和步驟(52)是同時進(jìn)行,且同時結(jié)束并進(jìn)入步驟(6)的;
步驟(51):利用采集到的訓(xùn)練樣本訓(xùn)練基于逆動態(tài)模型的神經(jīng)網(wǎng)絡(luò),進(jìn)入步驟(6);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811622803.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





