[發(fā)明專利]一種基于改進(jìn)DQN算法的室內(nèi)巡邏機器人自主導(dǎo)航方法在審
| 申請?zhí)枺?/td> | 202210020980.6 | 申請日: | 2022-01-10 |
| 公開(公告)號: | CN114706379A | 公開(公告)日: | 2022-07-05 |
| 發(fā)明(設(shè)計)人: | 毛樹人;鄭劍鋒;周海翔;吳振裕;孔鵬程 | 申請(專利權(quán))人: | 常州大學(xué) |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 常州市英諾創(chuàng)信專利代理事務(wù)所(普通合伙) 32258 | 代理人: | 楊闖 |
| 地址: | 213164 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 改進(jìn) dqn 算法 室內(nèi) 巡邏 機器人 自主 導(dǎo)航 方法 | ||
本發(fā)明涉及DQN算法技術(shù)領(lǐng)域,尤其涉及一種基于改進(jìn)DQN算法的室內(nèi)巡邏機器人自主導(dǎo)航方法,包括S1、巡邏機器人感知自身周圍的環(huán)境信息,并結(jié)合自身的位置信息和將到達(dá)的目標(biāo)點組成一個狀態(tài)空間,在狀態(tài)空間中依次設(shè)置若干目標(biāo)點,并作為DQN算法的輸入;S2、對DQN算法的目標(biāo)函數(shù)進(jìn)行改進(jìn),使目標(biāo)點不斷變起始點,直到最后一個目標(biāo)點;S3、通過對獎懲函數(shù)r進(jìn)行改進(jìn),提高DQN算法收斂速度。本發(fā)明對DQN算法進(jìn)行改進(jìn),避免算法陷入死循環(huán)的問題;將機器人行駛的路徑分段化,大大減少了DQN算法的迭代次數(shù);通過改進(jìn)獎懲函數(shù),使DQN算法收斂速度加快,從而完成室內(nèi)巡邏機器人自主導(dǎo)航的任務(wù)。
技術(shù)領(lǐng)域
本發(fā)明涉及DQN算法技術(shù)領(lǐng)域,尤其涉及一種基于改進(jìn)DQN算法的室內(nèi) 巡邏機器人自主導(dǎo)航方法。
背景技術(shù)
傳統(tǒng)的安防體系是“人防+物防”來實現(xiàn)??呻S著人口老齡化加重、勞動 力成本飆升、安保人員流失率高等問題,已經(jīng)難以適應(yīng)現(xiàn)代安防需求,安防巡 邏機器人產(chǎn)業(yè)迎來新的發(fā)展契機。安防巡邏機器人還處于起步階段,但巨大的 安防市場需求下,其發(fā)展?jié)摿臀磥砬熬皬V闊。由于深度強化學(xué)習(xí)中的深度Q 網(wǎng)絡(luò)(deep Q network/DQN)算法在Q-learning的基礎(chǔ)上利用神經(jīng)網(wǎng)絡(luò)進(jìn)行融 合,從而克服因Q-learning存儲數(shù)據(jù)消耗的內(nèi)存過大而導(dǎo)致的“維數(shù)災(zāi)難”問 題的缺陷,使得搜索過程不斷收斂,最終逼近最優(yōu)解,已經(jīng)被廣泛應(yīng)用于解決 機器人的自主導(dǎo)航問題中;而室內(nèi)巡邏機器人又與普通機器人不同,它們的巡 邏路徑相對統(tǒng)一,且當(dāng)路徑中有障礙出現(xiàn)應(yīng)優(yōu)先避開障礙。
Mnih等提出第一個深度強化學(xué)習(xí)模型,即深度Q網(wǎng)絡(luò)(DQN),該網(wǎng)絡(luò)模 型是將神經(jīng)網(wǎng)絡(luò)和Q-learning相結(jié)合,利用神經(jīng)網(wǎng)絡(luò)代替Q值表解決了 Q-learning中的維數(shù)災(zāi)難問題,但在網(wǎng)絡(luò)訓(xùn)練時收斂速度較慢;TaiL等把DQN應(yīng) 用到了無模型避障的路徑規(guī)劃中,但存在狀態(tài)-動作值過估計問題,造成移動機 器人獲得的獎懲稀疏,且規(guī)劃出的路徑并非最優(yōu)。
傳統(tǒng)的路徑規(guī)劃算法有A*算法、人工勢場法以及快速擴展隨機樹法等。A* 算法有著目標(biāo)點不可達(dá)時會造成大量性能消耗的特點;人工勢場法的路徑一般 是平滑、安全的,但該方法存在局部最優(yōu)點問題,容易陷入局部極小點,在相 似的障礙物之間找不到路徑,檢測到新的環(huán)境障礙物后,人工勢場法規(guī)劃的路 徑可能發(fā)生振蕩,在狹窄通道中擺動,快速擴展隨機樹法的一個弱點是難以在 有狹窄通道的環(huán)境找到路徑。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明所采用的技術(shù)方案是:一種基于改 進(jìn)DQN算法的室內(nèi)巡邏機器人自主導(dǎo)航方法包括以下步驟:
S1、巡邏機器人感知自身周圍的環(huán)境信息,并結(jié)合自身的位置信息和將到 達(dá)的目標(biāo)點組成一個狀態(tài)空間,在狀態(tài)空間中依次設(shè)置若干目標(biāo)點,并作為DQN 算法的輸入,巡邏機器人從起始點出發(fā);
巡邏機器人巡邏方式為按照規(guī)定環(huán)狀路徑巡邏,當(dāng)規(guī)定的環(huán)狀路徑中突然 出現(xiàn)障礙物時,巡邏機器人必須優(yōu)先避障,其次才應(yīng)該按照規(guī)定路徑進(jìn)行巡邏;
S2、通過對DQN算法的目標(biāo)函數(shù)進(jìn)行改進(jìn),巡邏機器人以當(dāng)前位置和速度 作為下一步動作的輸出,當(dāng)?shù)竭_(dá)第一目標(biāo)點后,以第一個目標(biāo)點為起始點尋找 下一個目標(biāo)點,當(dāng)機器人達(dá)到下一個目標(biāo)點時即完成此段路徑行走,依次不斷 循環(huán),直至找到最后一個目標(biāo)點,最后一個目標(biāo)點即起點;
以有邊界環(huán)狀路線為巡邏機器人的行進(jìn)路線,巡邏機器人在規(guī)定路線有限 制條件的環(huán)境下朝向目標(biāo)點運行的過程且最終能回到出發(fā)點,從而完成移動機 器人的自主導(dǎo)航任務(wù);
DQN算法結(jié)合神經(jīng)網(wǎng)絡(luò)和Q-learning,神經(jīng)網(wǎng)絡(luò)需要對Q表進(jìn)行建模,Q-learning利用馬爾科夫決策進(jìn)行建模,采用馬爾科夫決策中的當(dāng)前狀態(tài)、動作、 獎懲、策略、下一步動作進(jìn)行表示;DQN為了提高機器人的樣本關(guān)聯(lián)性和解決 機器人的效率利用問題引入了經(jīng)驗回放機制,并利用目標(biāo)Q值的唯一性來提高 動作更新的平穩(wěn)性;DQN包括建立目標(biāo)函數(shù)、目標(biāo)網(wǎng)絡(luò)和引入經(jīng)驗回放這三個 步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于常州大學(xué),未經(jīng)常州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210020980.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于自舉DQN的增強學(xué)習(xí)深度搜索方法
- 一種基于強化學(xué)習(xí)的圖片動態(tài)自適應(yīng)壓縮方法
- 基于DQN神經(jīng)網(wǎng)絡(luò)和高精度定位的駕駛行為優(yōu)化方法
- 一種基于引導(dǎo)式DQN控制的機械臂控制方法
- 基于Double DQN的改進(jìn)深度強化學(xué)習(xí)方法及系統(tǒng)
- 一種用于理解DQN模型的可視分析方法
- 基于強化學(xué)習(xí)和避讓策略的應(yīng)急車輛混合換道決策方法
- 一種基于強化學(xué)習(xí)的反無人機任務(wù)分配方法
- 基于DQN的車間多功能機器人
- 水聲網(wǎng)絡(luò)中基于深度強化學(xué)習(xí)實現(xiàn)時域干擾對齊的MAC協(xié)議





