[發明專利]基于好奇心-貪婪獎勵函數的機器人路徑規劃的方法有效
| 申請號: | 202110236703.4 | 申請日: | 2021-03-03 |
| 公開(公告)號: | CN113156940B | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 李躍;劉志勇;姚宇龍;段桂英 | 申請(專利權)人: | 河北工業職業技術學院 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 石家莊開言知識產權代理事務所(普通合伙) 13127 | 代理人: | 李志民 |
| 地址: | 050091 河*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 好奇心 貪婪 獎勵 函數 機器人 路徑 規劃 方法 | ||
1.一種基于好奇心-貪婪獎勵函數的機器人路徑規劃的方法,其特征是:所述規劃方法包括貪心獎勵模塊(2)、好奇心獎勵模塊(5)和獎勵融合模塊(7);所述好奇心獎勵模塊讓機器人在探索過程中擁有一種好奇心驅動,隨著對環境的熟悉程度動態調整探索策略,主動去探索不熟悉的區域,獲取好奇心獎勵值(12);所述貪心獎勵模塊根據機器人的工作環境,豐富環境中的有效獎勵空間,讓機器人能更快的探索到有效信息,避開障礙物區域,向目標區域靠攏,引導機器人進入正確的探索方向,獲取貪心獎勵值(15);所述獎勵融合模塊對貪心獎勵模塊、好奇心獎勵模塊進行合理的獎勵融合產生融合獎勵值(16),讓機器人懷著好奇心探索工作環境的同時,貪心的向任務點靠近,在不同的規劃階段得到更準確有效的獎勵值,提升機器人路徑規劃能力;所述好奇心獎勵模塊(5)包括好奇心獎勵模型(6)和智能體(4);所述好奇心獎勵模型(6)包括好奇心產生器(11)、好奇心產生器模型和好奇心獎勵值計算函數;所述好奇心產生器(11)表達式為Q(St,St+1,at|θQ),其中:at為當前動作,St為當前狀態,St+1為下一時刻的狀態,θQ為好奇心產生器的網絡參數;定義為智能體在當前狀態下預測其自身行為后果的誤差,在給定當前狀態St和采取的行動at的情況下預測下一個狀態St+1;所述獎勵融合模塊(7)將機器人的工作環境拆分為任務子環境(8)、危險子環境(9)和無效子環境(10),機器人在不同的子環境動態調整好奇心獎勵模塊(5)和貪心獎勵模塊(2)所占比重,合理全面執行軌跡規劃任務;所述獎勵融合模塊(7)根據三個子自環境的特性,確定獎勵權重向量,權重向量如下:
式中:
EoR為機器人末端執行裝置所在位置,λfusion為融合獎勵參數,λcuriosity為好奇心獎勵參數,λgreed為貪婪獎勵參數,dEO為機器人末端執行裝置與障礙物之間的相對距離,dET為機器人末端執行裝置與目標之間的相對距離,dwaring為相對危險距離,dgoal為目標吸引距離;
結合獎勵權重向量,得出獎勵融合公式如下:
Rfusion為融合獎勵值,λfusion為融合獎勵參數,Rwhole為融合獎勵函數,λcuriosity為好奇心獎勵參數,λgreed為貪婪獎勵參數,rcuriosity為好奇心獎勵值,rgreed為貪婪獎勵值。
2.根據權利要求1所述的基于好奇心-貪婪獎勵函數的機器人路徑規劃的方法,其特征是:所述貪心獎勵模塊(2)包括工作環境(1)和貪心獎勵模型(3)所述工作環境包含障礙物;所述貪心獎勵模型(3)包括貪心獎勵函數,所述貪心獎勵函數依據高斯混合模型建立;所述高斯混合模型由多個高斯模型線性疊加混合而成,所述高斯混合模型公式如下:
式中:P(x)為高斯混合模型概率密度函數,K為高斯生成器的個數,k為第k個高斯生成器,πk為每個生成器在高斯混合模型中所占的比例;式中:
其中:μ是期望值,Σ是協方差矩陣,Σ-1是協方差矩陣的逆矩陣;
貪心獎勵函數公式如下:
其中:
rgreed為貪心獎勵值;
N(x|μk,Σk)為第k個高斯分模型。
3.根據權利要求2所述的基于好奇心-貪婪獎勵函數的機器人路徑規劃的方法,其特征是:所述高斯混合模型建立后,機器人在障礙物和目標之間分別形成小范圍的獎勵,貪心獎勵空間(3)離目標點越來越近,貪心獎勵空間中的獎勵值會逐漸增大;機器人越接近障礙物會得到更多的障礙物獎勵空間的負獎勵。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河北工業職業技術學院,未經河北工業職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110236703.4/1.html,轉載請聲明來源鉆瓜專利網。





