[發(fā)明專利]基于神經(jīng)網(wǎng)絡(luò)與Q學(xué)習(xí)算法結(jié)合的動態(tài)避障方法在審
| 申請?zhí)枺?/td> | 201910760090.7 | 申請日: | 2019-08-16 |
| 公開(公告)號: | CN110345948A | 公開(公告)日: | 2019-10-18 |
| 發(fā)明(設(shè)計)人: | 黃超;張毅;鄭凱 | 申請(專利權(quán))人: | 重慶郵智機(jī)器人研究院有限公司 |
| 主分類號: | G01C21/20 | 分類號: | G01C21/20;G06N3/04;G06N3/08 |
| 代理公司: | 北京同恒源知識產(chǎn)權(quán)代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 401220 重慶*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 神經(jīng)網(wǎng)絡(luò) 動態(tài)避障 相關(guān)參數(shù) 目標(biāo)點 迭代 機(jī)器人技術(shù)領(lǐng)域 移動機(jī)器人運(yùn)動 神經(jīng)網(wǎng)絡(luò)參數(shù) 初始化參數(shù) 初始化設(shè)置 移動機(jī)器人 障礙物信息 迭代訓(xùn)練 動態(tài)環(huán)境 更新參數(shù) 狀態(tài)判斷 初始化 有效地 障礙物 避障 更新 構(gòu)建 收斂 反饋 安全 | ||
本發(fā)明涉及基于神經(jīng)網(wǎng)絡(luò)與Q學(xué)習(xí)算法結(jié)合的動態(tài)避障方法,屬于機(jī)器人技術(shù)領(lǐng)域。步驟為:對相關(guān)參數(shù)進(jìn)行初始化設(shè)置,包括神經(jīng)網(wǎng)絡(luò)的參數(shù)和Q學(xué)習(xí)相關(guān)參數(shù)的初始化;根據(jù)環(huán)境障礙物數(shù)據(jù)與初始化參數(shù)進(jìn)行訓(xùn)練迭代;根據(jù)當(dāng)前的環(huán)境障礙物信息,進(jìn)行移動機(jī)器人的當(dāng)前所處的狀態(tài)進(jìn)行計算與判別,計算并更新Q值,同時反饋并更新神經(jīng)網(wǎng)絡(luò)參數(shù);根據(jù)更新參數(shù)后狀態(tài)判斷移動機(jī)器人運(yùn)動是否安全;判斷是否達(dá)到迭代次數(shù),確定是否繼續(xù)訓(xùn)練;S6:判斷是否達(dá)到目標(biāo)點:如果沒有則使用神經(jīng)網(wǎng)絡(luò)重新進(jìn)行Q表構(gòu)建,進(jìn)行新的一輪迭代訓(xùn)練;如果已經(jīng)到達(dá)目標(biāo)點,則結(jié)束本次導(dǎo)航。本發(fā)明方法克服了計算時間長、收斂速度慢的缺點,有效地提升了動態(tài)環(huán)境中避障效率。
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器人技術(shù)領(lǐng)域,涉及基于神經(jīng)網(wǎng)絡(luò)與Q學(xué)習(xí)算法結(jié)合的動態(tài)避障方法。
背景技術(shù)
路徑規(guī)劃是自主移動機(jī)器人的關(guān)鍵要素之一,希望移動機(jī)器人能夠盡量快速準(zhǔn)確地到達(dá)目的地,同時也需要機(jī)器人能夠安全有效的躲避環(huán)境中的障礙物。目前在靜態(tài)環(huán)境下安全有效的躲避障礙物并準(zhǔn)確地到達(dá)目的地已經(jīng)有較多較好的解決方案。但是在環(huán)境中存在運(yùn)動的障礙物時,并且障礙物的速度與位置時刻都在發(fā)生變化時,這就對移動機(jī)器人的導(dǎo)航過程的避障算法的實時性和準(zhǔn)確性都比靜態(tài)環(huán)境中的要求更高,如果繼續(xù)使用靜態(tài)環(huán)境中的算法來進(jìn)行動態(tài)環(huán)境的導(dǎo)航與避障,那么極大可能會使得避障失敗導(dǎo)致最終導(dǎo)航失敗。
針對移動機(jī)器人的動態(tài)避障的研究主要是要對障礙物進(jìn)行有效的檢測和碰撞躲避控制算法設(shè)計,使機(jī)器人能夠準(zhǔn)確快速的完成導(dǎo)航任務(wù)。對于對障礙物的檢測,需要利用機(jī)器人自身所帶的測量傳感器,對障礙物進(jìn)行距離與位置的測量以及運(yùn)動狀態(tài)的判斷。在動態(tài)避障算法的研究上,比較常用的方法有人工勢場法、VFH類算法、神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊邏輯法以及滾動窗口法等。各有各自的優(yōu)缺點,例如人工勢場法計算量小實時性好,但容易出現(xiàn)局部極小值點。近年來由于Q學(xué)習(xí)算法具有不需要依賴模型的優(yōu)勢而被研究者青睞,但在動態(tài)工作環(huán)境可能會有很多不確定的障礙,這將會使得計算時間很長,甚至導(dǎo)致算法最終發(fā)散。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種基于神經(jīng)網(wǎng)絡(luò)與Q學(xué)習(xí)算法結(jié)合的動態(tài)避障方法。
為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
基于神經(jīng)網(wǎng)絡(luò)與Q學(xué)習(xí)算法結(jié)合的動態(tài)避障方法,包括以下步驟:
S1:對相關(guān)參數(shù)進(jìn)行初始化設(shè)置,包括神經(jīng)網(wǎng)絡(luò)的參數(shù)和Q學(xué)習(xí)相關(guān)參數(shù)的初始化;
S2:根據(jù)環(huán)境障礙物數(shù)據(jù)與初始化參數(shù)進(jìn)行訓(xùn)練迭代;
S3:根據(jù)當(dāng)前的環(huán)境障礙物信息,進(jìn)行移動機(jī)器人的當(dāng)前所處的狀態(tài)進(jìn)行計算與判別,計算并更新Q值,同時反饋并更新神經(jīng)網(wǎng)絡(luò)參數(shù);
S4:根據(jù)更新參數(shù)后狀態(tài)判斷移動機(jī)器人運(yùn)動是否安全;
S5:判斷是否達(dá)到迭代次數(shù),確定是否繼續(xù)訓(xùn)練;
S6:判斷是否達(dá)到目標(biāo)點:如果沒有則使用神經(jīng)網(wǎng)絡(luò)重新進(jìn)行Q表構(gòu)建,返回步驟S2進(jìn)行新的一輪迭代訓(xùn)練;如果已經(jīng)到達(dá)目標(biāo)點,則結(jié)束本次導(dǎo)航。
可選的,所述步驟S1中,初始化有關(guān)參數(shù)包括:迭代一次最大訓(xùn)練數(shù)據(jù)數(shù)量MaxEpoch,最大迭代次數(shù)Maxiteration,每次迭代的步長MaxStep,以及折扣因子γ,容量μ甚至神經(jīng)網(wǎng)絡(luò)隱含層結(jié)構(gòu)與Q值矩陣初始值。
可選的,所述步驟S2中,首先需要獲取移動機(jī)器人實時的局部環(huán)境數(shù)據(jù)Ei(i=1,2,…,16),分別是移動機(jī)器人周圍分布的傳感器獲取到的實時障礙物的距離信息;然后根據(jù)相關(guān)參數(shù)進(jìn)行迭代訓(xùn)練。
可選的,所述步驟S3中,算法的訓(xùn)練過程指計算和更新Q值矩陣的數(shù)值,即基于獎勵函數(shù)和在最終狀態(tài)下可以采取的所有先前行動的最大回報函數(shù):
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵智機(jī)器人研究院有限公司,未經(jīng)重慶郵智機(jī)器人研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910760090.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 目標(biāo)點全局自動定位方法
- 地圖的目標(biāo)點索引的建立方法,檢索目標(biāo)點的方法及裝置
- 一種車輛跟蹤的方法及裝置
- 確定目標(biāo)點的方法、裝置、電子設(shè)備及計算機(jī)可讀介質(zhì)
- 地理網(wǎng)格的信息處理方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 具有抑制檢測目標(biāo)分裂功能的雷達(dá)目標(biāo)檢測方法及裝置
- 一種點云融合方法、裝置及探測系統(tǒng)
- 一種定點漂移糾偏方法、裝置、終端設(shè)備及存儲介質(zhì)
- 基于車載毫米波雷達(dá)的單目標(biāo)跟蹤方法及其系統(tǒng)
- 一種室內(nèi)導(dǎo)航方法及裝置





