[發(fā)明專(zhuān)利]基于好奇心-貪婪獎(jiǎng)勵(lì)函數(shù)的機(jī)器人路徑規(guī)劃的方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110236703.4 | 申請(qǐng)日: | 2021-03-03 |
| 公開(kāi)(公告)號(hào): | CN113156940B | 公開(kāi)(公告)日: | 2022-08-30 |
| 發(fā)明(設(shè)計(jì))人: | 李躍;劉志勇;姚宇龍;段桂英 | 申請(qǐng)(專(zhuān)利權(quán))人: | 河北工業(yè)職業(yè)技術(shù)學(xué)院 |
| 主分類(lèi)號(hào): | G05D1/02 | 分類(lèi)號(hào): | G05D1/02 |
| 代理公司: | 石家莊開(kāi)言知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 13127 | 代理人: | 李志民 |
| 地址: | 050091 河*** | 國(guó)省代碼: | 河北;13 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 好奇心 貪婪 獎(jiǎng)勵(lì) 函數(shù) 機(jī)器人 路徑 規(guī)劃 方法 | ||
1.一種基于好奇心-貪婪獎(jiǎng)勵(lì)函數(shù)的機(jī)器人路徑規(guī)劃的方法,其特征是:所述規(guī)劃方法包括貪心獎(jiǎng)勵(lì)模塊(2)、好奇心獎(jiǎng)勵(lì)模塊(5)和獎(jiǎng)勵(lì)融合模塊(7);所述好奇心獎(jiǎng)勵(lì)模塊讓機(jī)器人在探索過(guò)程中擁有一種好奇心驅(qū)動(dòng),隨著對(duì)環(huán)境的熟悉程度動(dòng)態(tài)調(diào)整探索策略,主動(dòng)去探索不熟悉的區(qū)域,獲取好奇心獎(jiǎng)勵(lì)值(12);所述貪心獎(jiǎng)勵(lì)模塊根據(jù)機(jī)器人的工作環(huán)境,豐富環(huán)境中的有效獎(jiǎng)勵(lì)空間,讓機(jī)器人能更快的探索到有效信息,避開(kāi)障礙物區(qū)域,向目標(biāo)區(qū)域靠攏,引導(dǎo)機(jī)器人進(jìn)入正確的探索方向,獲取貪心獎(jiǎng)勵(lì)值(15);所述獎(jiǎng)勵(lì)融合模塊對(duì)貪心獎(jiǎng)勵(lì)模塊、好奇心獎(jiǎng)勵(lì)模塊進(jìn)行合理的獎(jiǎng)勵(lì)融合產(chǎn)生融合獎(jiǎng)勵(lì)值(16),讓機(jī)器人懷著好奇心探索工作環(huán)境的同時(shí),貪心的向任務(wù)點(diǎn)靠近,在不同的規(guī)劃階段得到更準(zhǔn)確有效的獎(jiǎng)勵(lì)值,提升機(jī)器人路徑規(guī)劃能力;所述好奇心獎(jiǎng)勵(lì)模塊(5)包括好奇心獎(jiǎng)勵(lì)模型(6)和智能體(4);所述好奇心獎(jiǎng)勵(lì)模型(6)包括好奇心產(chǎn)生器(11)、好奇心產(chǎn)生器模型和好奇心獎(jiǎng)勵(lì)值計(jì)算函數(shù);所述好奇心產(chǎn)生器(11)表達(dá)式為Q(St,St+1,at|θQ),其中:at為當(dāng)前動(dòng)作,St為當(dāng)前狀態(tài),St+1為下一時(shí)刻的狀態(tài),θQ為好奇心產(chǎn)生器的網(wǎng)絡(luò)參數(shù);定義為智能體在當(dāng)前狀態(tài)下預(yù)測(cè)其自身行為后果的誤差,在給定當(dāng)前狀態(tài)St和采取的行動(dòng)at的情況下預(yù)測(cè)下一個(gè)狀態(tài)St+1;所述獎(jiǎng)勵(lì)融合模塊(7)將機(jī)器人的工作環(huán)境拆分為任務(wù)子環(huán)境(8)、危險(xiǎn)子環(huán)境(9)和無(wú)效子環(huán)境(10),機(jī)器人在不同的子環(huán)境動(dòng)態(tài)調(diào)整好奇心獎(jiǎng)勵(lì)模塊(5)和貪心獎(jiǎng)勵(lì)模塊(2)所占比重,合理全面執(zhí)行軌跡規(guī)劃任務(wù);所述獎(jiǎng)勵(lì)融合模塊(7)根據(jù)三個(gè)子自環(huán)境的特性,確定獎(jiǎng)勵(lì)權(quán)重向量,權(quán)重向量如下:
式中:
EoR為機(jī)器人末端執(zhí)行裝置所在位置,λfusion為融合獎(jiǎng)勵(lì)參數(shù),λcuriosity為好奇心獎(jiǎng)勵(lì)參數(shù),λgreed為貪婪獎(jiǎng)勵(lì)參數(shù),dEO為機(jī)器人末端執(zhí)行裝置與障礙物之間的相對(duì)距離,dET為機(jī)器人末端執(zhí)行裝置與目標(biāo)之間的相對(duì)距離,dwaring為相對(duì)危險(xiǎn)距離,dgoal為目標(biāo)吸引距離;
結(jié)合獎(jiǎng)勵(lì)權(quán)重向量,得出獎(jiǎng)勵(lì)融合公式如下:
Rfusion為融合獎(jiǎng)勵(lì)值,λfusion為融合獎(jiǎng)勵(lì)參數(shù),Rwhole為融合獎(jiǎng)勵(lì)函數(shù),λcuriosity為好奇心獎(jiǎng)勵(lì)參數(shù),λgreed為貪婪獎(jiǎng)勵(lì)參數(shù),rcuriosity為好奇心獎(jiǎng)勵(lì)值,rgreed為貪婪獎(jiǎng)勵(lì)值。
2.根據(jù)權(quán)利要求1所述的基于好奇心-貪婪獎(jiǎng)勵(lì)函數(shù)的機(jī)器人路徑規(guī)劃的方法,其特征是:所述貪心獎(jiǎng)勵(lì)模塊(2)包括工作環(huán)境(1)和貪心獎(jiǎng)勵(lì)模型(3)所述工作環(huán)境包含障礙物;所述貪心獎(jiǎng)勵(lì)模型(3)包括貪心獎(jiǎng)勵(lì)函數(shù),所述貪心獎(jiǎng)勵(lì)函數(shù)依據(jù)高斯混合模型建立;所述高斯混合模型由多個(gè)高斯模型線性疊加混合而成,所述高斯混合模型公式如下:
式中:P(x)為高斯混合模型概率密度函數(shù),K為高斯生成器的個(gè)數(shù),k為第k個(gè)高斯生成器,πk為每個(gè)生成器在高斯混合模型中所占的比例;式中:
其中:μ是期望值,Σ是協(xié)方差矩陣,Σ-1是協(xié)方差矩陣的逆矩陣;
貪心獎(jiǎng)勵(lì)函數(shù)公式如下:
其中:
rgreed為貪心獎(jiǎng)勵(lì)值;
N(x|μk,Σk)為第k個(gè)高斯分模型。
3.根據(jù)權(quán)利要求2所述的基于好奇心-貪婪獎(jiǎng)勵(lì)函數(shù)的機(jī)器人路徑規(guī)劃的方法,其特征是:所述高斯混合模型建立后,機(jī)器人在障礙物和目標(biāo)之間分別形成小范圍的獎(jiǎng)勵(lì),貪心獎(jiǎng)勵(lì)空間(3)離目標(biāo)點(diǎn)越來(lái)越近,貪心獎(jiǎng)勵(lì)空間中的獎(jiǎng)勵(lì)值會(huì)逐漸增大;機(jī)器人越接近障礙物會(huì)得到更多的障礙物獎(jiǎng)勵(lì)空間的負(fù)獎(jiǎng)勵(lì)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于河北工業(yè)職業(yè)技術(shù)學(xué)院,未經(jīng)河北工業(yè)職業(yè)技術(shù)學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110236703.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 管制網(wǎng)絡(luò)
- 利用長(zhǎng)時(shí)信道信息的大規(guī)模分布式MIMO系統(tǒng)調(diào)度方法
- 貪婪地理路由協(xié)議切線切換空洞處理的路由方法
- 一種基于地理位置的能量采集無(wú)線傳感器網(wǎng)絡(luò)路由算法
- 一種高速移動(dòng)下基于貪婪算法改進(jìn)的模代數(shù)預(yù)編碼方法
- 處理器實(shí)施方法和包括眾包選擇模塊的車(chē)輛
- 基于自適應(yīng)貪婪的Q學(xué)習(xí)算法足球系統(tǒng)仿真方法
- 一種基于貪婪算法和搜索算法的混合算法的組合測(cè)試用例生成算法
- 異構(gòu)信息網(wǎng)絡(luò)中基于元路徑的節(jié)點(diǎn)查詢方法
- 基于貪婪算法和搜索算法的組合測(cè)試用例生成算法
- 用于在獎(jiǎng)勵(lì)計(jì)劃中授予隨機(jī)獎(jiǎng)勵(lì)的技術(shù)
- 交易獎(jiǎng)勵(lì)系統(tǒng)
- 游戲機(jī)
- 基于移動(dòng)終端的聯(lián)網(wǎng)游戲的獎(jiǎng)勵(lì)實(shí)現(xiàn)方法、服務(wù)器及系統(tǒng)
- 獎(jiǎng)勵(lì)發(fā)放的處理方法和裝置
- 基于互聯(lián)網(wǎng)的景區(qū)獎(jiǎng)勵(lì)系統(tǒng)
- 一種游戲場(chǎng)景內(nèi)的系統(tǒng)獎(jiǎng)勵(lì)方法
- 接單獎(jiǎng)勵(lì)處理方法、裝置、獎(jiǎng)勵(lì)平臺(tái)及存儲(chǔ)介質(zhì)
- 一種基于手機(jī)銀行的數(shù)據(jù)處理方法及系統(tǒng)
- 基于好奇心-貪婪獎(jiǎng)勵(lì)函數(shù)的機(jī)器人路徑規(guī)劃的方法





