[發明專利]一種基于強化學習和好奇心的迷宮機器人路徑規劃方法在審
| 申請號: | 202210412829.7 | 申請日: | 2022-04-19 |
| 公開(公告)號: | CN114721397A | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 張曉平;劉翼豪;王力;李凱;楊天航;吳宜通;孟祥鵬;鄭遠鵬 | 申請(專利權)人: | 北方工業大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100144 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 好奇心 迷宮 機器人 路徑 規劃 方法 | ||
一種基于強化學習和好奇心的迷宮機器人路徑規劃方法,屬于移動機器人技術領域。該模型以強化學習為基礎,包括Q?learning算法,好奇心算法,以及回溯強化。其中,好奇心算法包括一個BP網絡,聯想記憶網絡和內部獎勵三部分。算法首先感知所在節點以及狀態;隨后根據好奇心算法進行好奇心獎勵計算,而后根據Q?learning算法更新公式計算Q值;選擇動作;發生狀態轉移;到達目的地后進行回溯強化;重復以上過程直至學習到最短路徑。本發明引入基于預測誤差的好奇機制,使得算法對未知環境有更好的探索能力,同時也降低了重復探索的次數,減少了學習過程中的尋路時間。使得機器人在迷宮中能更好更快地尋得最優解。
技術領域
本發明涉及一種基于強化學習和好奇心的迷宮機器人路徑規劃方法,屬于移動機器人技術領域。
背景技術
移動機器人應用廣泛,根據在工業、服務、軍事等領域的不同,其所具備的能力和移動方式也不同。早期移動機器人主要代替人們解決現實問題,近年來,隨著人工智能的普及和發展,移動機器人逐漸向更加智能的自學習、自控制方向發展,代替人類完成更加復雜的、不確定性的任務具有重要意義。
為了使得機器人更加智能,研究者們受生物學的啟發,試圖將生物的情感復制的到機器人身上,使得它們在面對學習任務時也同樣具有生物類似的反應,從而達到智能水平。其中好奇心作為情感之一,促進學習的作用尤為突出。
基于以上背景,本發明以強化學習為框架,提出一種具有好奇心的迷宮機器人自主導航方法并設計了其學習算法,使得機器人在探索迷宮的過程中具有類似生物的探索過程。使得強化學習效率得到了提高。相關的專利如申請號CN201911001136.3提出了一種基于強化學習的移動機器人路徑規劃方法,其對改進后的A*方法進行預訓練,并設置以路徑長度為函數的強化學習獎勵獎勵函數,其沒有涉及好奇心算法。申請號202110837144.2根據移動機器人的運動約束條件,利用RRT*算法生成多條可行路徑,然后利用轉彎特性函數計算每一可行路徑的路徑時間代價,并選取路徑時間代價最小的可行路徑作為移動機器人的規劃路徑。
2018年2019年北京理工大學的張家輝教授提出了一種基于好奇心的移動機器人路徑規劃方法,旨在用一種心理能量函數來指導機器人在導航任務中的學習方向。荷蘭特文特大學的N.Botteghi提出了一個強化學習框架來導航、探索和映射未知環境。其運用SLAM算法估計機器人的姿態并繪制環境地圖。引入好心驅動的獎勵功能,引導移動機器人走向環境中未知的區域。
本發明使用強化學習為數學模型,動作選擇上采用基于好奇心的內在獎勵機制,能夠學習到最優策略的同時有效的提高系統學習效率。目前,尚未見到與本發明相似的專利記錄。
發明內容
本發明涉及一種基于強化學習和好奇心的迷宮機器人路徑規劃方法,屬于移動機器人技術領域。
一、強化學習
采用Q-learning,將節點作為狀態,即S={Nk|k=1,2,3…n}。獎勵設置如下:
其中,rc為好奇心內在獎勵;r為強化學習獎勵。可選動作指相對于移動機器人第一次到達某一節點時,除回退動作之外的動作為可選動作。即,當下一節點無法轉移到另一新節點,而只可回退到上一節點時,強化學習獎勵r=-100。
動作A={a|ii=1,2,3…p},分別為將機器人正面朝向轉到地圖的東,西,南,北方向。
其中,Q值更新公式如下:
Q(Nk,ai)=(1-α)Q(Nk,ai)+α[r+maxQ(Nk+1,a′)]
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北方工業大學,未經北方工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210412829.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:螺旋脊人工血管及其制備方法
- 下一篇:一種紅外碳硫分析儀石英燃燒管的清洗方法





