[發(fā)明專利]一種結(jié)合深度Q學(xué)習(xí)的機(jī)器人路徑學(xué)習(xí)與避障系統(tǒng)及方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110648635.2 | 申請(qǐng)日: | 2021-06-10 |
| 公開(公告)號(hào): | CN113419524B | 公開(公告)日: | 2022-05-06 |
| 發(fā)明(設(shè)計(jì))人: | 顏成鋼;裘健鋆;路榮豐;孫垚棋;張繼勇;李宗鵬 | 申請(qǐng)(專利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類號(hào): | G05D1/02 | 分類號(hào): | G05D1/02 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)合 深度 學(xué)習(xí) 機(jī)器人 路徑 系統(tǒng) 方法 | ||
本發(fā)明公開了一種結(jié)合深度Q學(xué)習(xí)的機(jī)器人路徑學(xué)習(xí)與避障系統(tǒng)及方法。本發(fā)明包括動(dòng)作模塊、學(xué)習(xí)模塊和障礙物避險(xiǎn)模塊。在路徑規(guī)劃期間,動(dòng)作模塊會(huì)從學(xué)習(xí)模塊和障礙物避險(xiǎn)模塊接收指令,并讓機(jī)器人根據(jù)指令完成指定動(dòng)作。學(xué)習(xí)模塊根據(jù)機(jī)器人當(dāng)前狀態(tài)和動(dòng)作的歷史數(shù)據(jù)序列,訓(xùn)練動(dòng)作選擇策略。障礙物避險(xiǎn)模塊執(zhí)行隨機(jī)樹搜索算法,以指導(dǎo)機(jī)器人從危險(xiǎn)情況避險(xiǎn)得到安全路徑。每個(gè)模塊在執(zhí)行后,環(huán)境中機(jī)器人的當(dāng)前狀態(tài)都將發(fā)生變化。通過安排機(jī)制評(píng)估每個(gè)模塊的風(fēng)險(xiǎn)并確定應(yīng)激活風(fēng)險(xiǎn)最小的模塊。本發(fā)明使用Q學(xué)習(xí)算法解決了大容量數(shù)據(jù)存儲(chǔ)的問題。提高了機(jī)器人在避開障礙物時(shí)的效率問題。
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器人控制領(lǐng)域,具體涉及一種結(jié)合深度Q學(xué)習(xí)的機(jī)器人路徑學(xué)習(xí)與避障方法。
背景技術(shù)
對(duì)于類似于救援,采礦等機(jī)器人應(yīng)用來說,移動(dòng)機(jī)器人探索未知環(huán)境是一個(gè)非常普遍的問題。通常,借助視覺或深度傳感器的信息,機(jī)器人需要有關(guān)障礙物和環(huán)境拓?fù)鋱D的復(fù)雜邏輯。但是,這些傳統(tǒng)方法沒有高級(jí)的類似于人腦的智能。本發(fā)明開發(fā)了一種機(jī)器學(xué)習(xí)的方法,供機(jī)器人使用原始傳感器輸入探索未知環(huán)境。
迄今為止,關(guān)于機(jī)器人路徑規(guī)劃的研究已經(jīng)廣泛開展,有關(guān)建模和求解方法的文獻(xiàn)也很多。與實(shí)現(xiàn)威脅信息有關(guān)的研究可以分為兩類:基于事先完整的環(huán)境信息的靜態(tài)路徑規(guī)劃和實(shí)時(shí)路徑規(guī)劃研究。與完整的環(huán)境信息相比,實(shí)時(shí)方法假設(shè)威脅環(huán)境是部分或完全未知的,它具有更多的實(shí)際意義并引起了越來越多的關(guān)注。如何利用不完整的信息對(duì)動(dòng)態(tài)環(huán)境做出反應(yīng)是機(jī)器人實(shí)時(shí)路徑規(guī)劃中的關(guān)鍵問題。許多研究人員提出了各種人工智能(AI)方法,例如遺傳算法和粒子群算法。通過建立動(dòng)態(tài)模型,減少計(jì)算量和其他方法,他們用AI方法解決了一些實(shí)時(shí)路徑規(guī)劃問題。但是,人工智能方法無法解決潛在的問題。因?yàn)闄C(jī)器人要想準(zhǔn)確地對(duì)實(shí)時(shí)環(huán)境做出反應(yīng),就必須開發(fā)一個(gè)動(dòng)態(tài),復(fù)雜且龐大的模型,而這需要很長(zhǎng)時(shí)間才能獲得結(jié)果。因此,準(zhǔn)確與實(shí)時(shí)之間存在矛盾。
由于不可能在未知環(huán)境中獲得所有信息,也無法預(yù)測(cè)機(jī)器人可能遇到的所有事物,因此使用確定性AI方法來實(shí)現(xiàn)路徑規(guī)劃過程的最佳控制是不可行的。盡管某些自學(xué)習(xí)方法可以在某種程度上克服缺少先驗(yàn)知識(shí)的問題,但是由于任務(wù)場(chǎng)景的各種屬性,它可能會(huì)遭受過度學(xué)習(xí)所引起的問題。相比之下,較少的環(huán)境知識(shí)可能會(huì)減慢學(xué)習(xí)速度,并導(dǎo)致機(jī)器人陷入局部最優(yōu)狀態(tài)。此外,對(duì)于大多數(shù)學(xué)習(xí)方法而言,必須有一個(gè)龐大的矩陣來保存計(jì)算值。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種結(jié)合深度Q學(xué)習(xí)的機(jī)器人路徑學(xué)習(xí)與避障系統(tǒng)及方法。
本發(fā)明系統(tǒng)(即ARE框架)包括動(dòng)作模塊、學(xué)習(xí)模塊和障礙物避險(xiǎn)模塊。在路徑規(guī)劃期間,動(dòng)作模塊會(huì)從學(xué)習(xí)模塊和障礙物避險(xiǎn)模塊接收指令,并讓機(jī)器人根據(jù)指令完成指定動(dòng)作。學(xué)習(xí)模塊根據(jù)機(jī)器人當(dāng)前狀態(tài)和動(dòng)作的歷史數(shù)據(jù)序列,訓(xùn)練動(dòng)作選擇策略。障礙物避險(xiǎn)模塊執(zhí)行隨機(jī)樹搜索算法,以指導(dǎo)機(jī)器人從危險(xiǎn)情況避險(xiǎn)得到安全路徑。
每個(gè)模塊在執(zhí)行后,環(huán)境中機(jī)器人的當(dāng)前狀態(tài)都將發(fā)生變化。然后通過安排機(jī)制評(píng)估每個(gè)模塊的風(fēng)險(xiǎn)并確定應(yīng)激活風(fēng)險(xiǎn)最小的模塊。即機(jī)器人是否應(yīng)該擺脫當(dāng)前的困境或更新從歷史數(shù)據(jù)序列動(dòng)作的結(jié)果中學(xué)到的行動(dòng)策略。
所述的當(dāng)前狀態(tài)包括機(jī)器人當(dāng)前所在位置坐標(biāo)
一種結(jié)合深度Q學(xué)習(xí)的機(jī)器人路徑學(xué)習(xí)與避障的方法,具體包括如下步驟:
步驟1、初始化機(jī)器人參數(shù),機(jī)器人上設(shè)置有動(dòng)作模塊、學(xué)習(xí)模塊和障礙物避險(xiǎn)模塊,同時(shí)還設(shè)置有距離傳感器;
距離傳感器用于檢測(cè)當(dāng)前機(jī)器人與最近障礙物的距離,并實(shí)時(shí)將該距離發(fā)送給學(xué)習(xí)模塊,學(xué)習(xí)模塊通過判斷當(dāng)前距離決定是否進(jìn)入障礙物避險(xiǎn)模塊。
步驟2、基于Q學(xué)習(xí)構(gòu)建機(jī)器人路徑學(xué)習(xí)與避障的歷史數(shù)據(jù)序列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110648635.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





