[發明專利]一種基于強化學習和好奇心的迷宮機器人路徑規劃方法在審
| 申請號: | 202210412829.7 | 申請日: | 2022-04-19 |
| 公開(公告)號: | CN114721397A | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 張曉平;劉翼豪;王力;李凱;楊天航;吳宜通;孟祥鵬;鄭遠鵬 | 申請(專利權)人: | 北方工業大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100144 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 好奇心 迷宮 機器人 路徑 規劃 方法 | ||
1.一種基于強化學習和好奇心的迷宮機器人路徑規劃方法,其特征在于包括:
(1)強化學習
采用Q-learning,將節點作為狀態,即S={Nk|k=1,2,3…n};獎勵設置如下:
其中,rc為好奇心內在獎勵;r為強化學習獎勵;可選動作指相對于移動機器人第一次到達某一節點時,除回退動作之外的動作為可選動作;即,當下一節點無法轉移到另一新節點,而只可回退到上一節點時,強化學習獎勵r=-100;
動作A={ai|i=1,2,3…p},分別為將機器人正面朝向轉到地圖的東,西,南,北方向;其中,Q值更新公式如下:
Q(Nk,ai)=(1-α)Q(Nk,ai)+α[r+maxQ(Nk+1,a′)]
其中,Nk為某一節點;ai為當前節點下所執行的動作;Q(Nk,ai)為節點Nk下的動作ai的Q值;α為學習率設置為0.8;r為獲得的強化學習獎勵;Nk+1為下一節點,maxQ(Nk+1,a′)為下一節點中的各個動作的最大Q值;a′為下一節點最大Q值的動作;
(2)好奇心算法:
1、前向網絡
采用BP網絡,設有3個隱含層,輸入層神經元數量為2個,3個隱含層神經元數量均為33個,輸出層神經元數量為5個,每一層的激活函數均為logistic函數;BP網絡的權值初始化為[0,1]隨機數值;其輸入為兩個值分別為節點以及動作,即[Nk,ai];輸出為五個值,即下一節點以及下一節點各個方向可通行情況,可通行數值接近1,不可通行為數值接近0;其損失函數如下:
其中,其中為聯想記憶網絡輸出y′中的值其物理含義與BP網絡輸出相同;
2、聯想記憶網絡
聯想記憶網絡,用來記錄在某一節點下選擇某一動作所對應的下一節點以及下一節點的可通行情況;網絡只有一層輸入和一層輸出,沒有隱含層;
輸入為1×m的矩陣,其中m=n×p,n,p分別為節點個數和動作數;輸入矩陣包含節點Nk以及動作ai信息,其中節點Nk由矩陣中的某p列表示;而在表示Nk的p列元素中,自左向右數第i個元素為1,且只有1個元素為1,用來表示動作ai;
由[Nk,ai]編碼為的公式如下:
j=p×(Nk-1)+ai
根據上述公式得到第j列元素為1,進而得到編碼后的
矩陣中只有一個元素為1,其余均為0,第j列元素為1則Nk及ai表達式如下:
其中j為矩陣Mm的元素1所在列數;p為動作數;
輸出為5個值,下一節點和移動機器人到達下一節點的四個方向的情況,即其中N′k+1為下一節點,為下一節點各個方向可通行情況,可通行為數值1,不可通行為數值0;在進行動作選擇時,僅選取當前節點數值為1的方向并執行動作;方向和動作[a1,a2,a3,a4]是一一對應的;
聯想記憶網絡的初始權值Wlm為l×m的0矩陣,權值矩陣更新公式如下:
其中y′為聯想記憶網絡的輸出矩陣,為聯想記憶網絡的輸入矩陣;
3、內部獎勵
內部獎勵設置為前向網絡和聯想記憶網絡的輸出誤差;好奇心獎勵函數與損失函數計算過程相同;
rc表示動作ai的好奇心獎勵;有效的好奇心獎勵才會被運用,好奇心獎勵有效性判別與某一節點的好奇度有關,好奇度公式如下:
其中為智能體在節點Nk傳感器所檢測到的四個方向的可通行情況,方向可通行則數值為1,方向有障礙物不可行則數值為0;maxQ(Nk+1,a)為節點Nk下的各個動作Q值的最大Q值;rc表示動作ai的好奇心獎勵;
當時,此節點的好奇度下降,此時動作的好奇心值記為無效;
(3)回溯強化
當智能體到達目的地時,則本輪探索結束;智能體根據聯想記憶從終點出發,進行推理回溯,每個節點和相應的動作都不是得到相同的強化,而是按順序遞減;進行回溯強化時Q值更新公式如下:
Q(Nk,ai)=(1-α)Q(Nk,ai)+αmaxQ(Nk+1,a′)
當連續兩次進行回溯強化時,不存在好奇度大于1的節點,則不再進行迭代學習,程序結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北方工業大學,未經北方工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210412829.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:螺旋脊人工血管及其制備方法
- 下一篇:一種紅外碳硫分析儀石英燃燒管的清洗方法





