[發明專利]基于好奇心-貪婪獎勵函數的機器人路徑規劃的方法有效

申請號：	202110236703.4	申請日：	2021-03-03
公開（公告）號：	CN113156940B	公開（公告）日：	2022-08-30
發明（設計）人：	李躍;劉志勇;姚宇龍;段桂英	申請（專利權）人：	河北工業職業技術學院
主分類號：	G05D1/02	分類號：	G05D1/02
代理公司：	石家莊開言知識產權代理事務所(普通合伙) 13127	代理人：	李志民
地址：	050091 河***	國省代碼：	河北;13
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于好奇心貪婪獎勵函數機器人路徑規劃方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于好奇心-貪婪獎勵函數的機器人路徑規劃的方法，其特征是：所述規劃方法包括貪心獎勵模塊(2)、好奇心獎勵模塊(5)和獎勵融合模塊(7)；所述好奇心獎勵模塊讓機器人在探索過程中擁有一種好奇心驅動，隨著對環境的熟悉程度動態調整探索策略，主動去探索不熟悉的區域，獲取好奇心獎勵值(12)；所述貪心獎勵模塊根據機器人的工作環境，豐富環境中的有效獎勵空間，讓機器人能更快的探索到有效信息，避開障礙物區域，向目標區域靠攏，引導機器人進入正確的探索方向，獲取貪心獎勵值(15)；所述獎勵融合模塊對貪心獎勵模塊、好奇心獎勵模塊進行合理的獎勵融合產生融合獎勵值(16)，讓機器人懷著好奇心探索工作環境的同時，貪心的向任務點靠近，在不同的規劃階段得到更準確有效的獎勵值，提升機器人路徑規劃能力；所述好奇心獎勵模塊(5)包括好奇心獎勵模型(6)和智能體(4)；所述好奇心獎勵模型(6)包括好奇心產生器(11)、好奇心產生器模型和好奇心獎勵值計算函數；所述好奇心產生器(11)表達式為Q(S_t,S_t+1,a_t|θ^Q)，其中：a_t為當前動作，S_t為當前狀態，S_t+1為下一時刻的狀態，θ^Q為好奇心產生器的網絡參數；定義為智能體在當前狀態下預測其自身行為后果的誤差，在給定當前狀態S_t和采取的行動a_t的情況下預測下一個狀態S_t+1；所述獎勵融合模塊(7)將機器人的工作環境拆分為任務子環境(8)、危險子環境(9)和無效子環境(10)，機器人在不同的子環境動態調整好奇心獎勵模塊(5)和貪心獎勵模塊(2)所占比重，合理全面執行軌跡規劃任務；所述獎勵融合模塊(7)根據三個子自環境的特性，確定獎勵權重向量，權重向量如下：

式中：

EoR為機器人末端執行裝置所在位置，λ_fusion為融合獎勵參數，λ_curiosity為好奇心獎勵參數，λ_greed為貪婪獎勵參數，dEO為機器人末端執行裝置與障礙物之間的相對距離，dET為機器人末端執行裝置與目標之間的相對距離，dwaring為相對危險距離，dgoal為目標吸引距離；

結合獎勵權重向量，得出獎勵融合公式如下：

R_fusion為融合獎勵值，λ_fusion為融合獎勵參數，R_whole為融合獎勵函數，λ_curiosity為好奇心獎勵參數，λ_greed為貪婪獎勵參數，r_curiosity為好奇心獎勵值，r_greed為貪婪獎勵值。

2.根據權利要求1所述的基于好奇心-貪婪獎勵函數的機器人路徑規劃的方法，其特征是：所述貪心獎勵模塊(2)包括工作環境(1)和貪心獎勵模型(3)所述工作環境包含障礙物；所述貪心獎勵模型(3)包括貪心獎勵函數，所述貪心獎勵函數依據高斯混合模型建立；所述高斯混合模型由多個高斯模型線性疊加混合而成，所述高斯混合模型公式如下：

式中：P(x)為高斯混合模型概率密度函數，K為高斯生成器的個數，k為第k個高斯生成器，π_k為每個生成器在高斯混合模型中所占的比例；式中：

其中：μ是期望值，Σ是協方差矩陣，Σ^-1是協方差矩陣的逆矩陣；

貪心獎勵函數公式如下：

其中：

r_greed為貪心獎勵值；

N(x|μ_k,Σ_k)為第k個高斯分模型。

3.根據權利要求2所述的基于好奇心-貪婪獎勵函數的機器人路徑規劃的方法，其特征是：所述高斯混合模型建立后，機器人在障礙物和目標之間分別形成小范圍的獎勵，貪心獎勵空間(3)離目標點越來越近，貪心獎勵空間中的獎勵值會逐漸增大；機器人越接近障礙物會得到更多的障礙物獎勵空間的負獎勵。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于河北工業職業技術學院，未經河北工業職業技術學院許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110236703.4/1.html，轉載請聲明來源鉆瓜專利網。