[發(fā)明專利]基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人人群感知導(dǎo)航方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202210122517.2 | 申請(qǐng)日: | 2022-02-09 |
| 公開(公告)號(hào): | CN114485673A | 公開(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計(jì))人: | 周風(fēng)余;薛秉鑫;馮震;夏英翔;尹磊 | 申請(qǐng)(專利權(quán))人: | 山東大學(xué) |
| 主分類號(hào): | G01C21/20 | 分類號(hào): | G01C21/20 |
| 代理公司: | 濟(jì)南圣達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250061 山東*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強(qiáng)化 學(xué)習(xí) 服務(wù) 機(jī)器人 人群 感知 導(dǎo)航 方法 系統(tǒng) | ||
本發(fā)明公開了基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人人群感知導(dǎo)航方法及系統(tǒng),包括:獲取智能體的可觀測(cè)狀態(tài)和不可觀測(cè)狀態(tài);所述智能體,包括服務(wù)機(jī)器人和行人;根據(jù)智能體的可觀測(cè)狀態(tài)和不可觀測(cè)狀態(tài),找到服務(wù)機(jī)器人在每個(gè)時(shí)間步的最優(yōu)導(dǎo)航策略,以實(shí)現(xiàn)機(jī)器人在n個(gè)行人之間導(dǎo)航,并在沒有任何碰撞的情況下到達(dá)目標(biāo)所在地;最優(yōu)導(dǎo)航策略以滿足最大化期望累積獎(jiǎng)賞為目標(biāo);所述最優(yōu)導(dǎo)航策略包括服務(wù)機(jī)器人在每個(gè)時(shí)間步的動(dòng)作指令,即在每個(gè)時(shí)間步服務(wù)機(jī)器人需實(shí)現(xiàn)的速度。本發(fā)明能夠有效預(yù)測(cè)行人的未來(lái)運(yùn)動(dòng)軌跡,進(jìn)而提升機(jī)器人決策水平,實(shí)現(xiàn)機(jī)器人在人群環(huán)境中的可靠導(dǎo)航。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器人導(dǎo)航技術(shù)領(lǐng)域,特別是涉及基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人人群感知導(dǎo)航方法及系統(tǒng)。
背景技術(shù)
本部分的陳述僅僅是提到了與本發(fā)明相關(guān)的背景技術(shù),并不必然構(gòu)成現(xiàn)有技術(shù)。
隨著感知和計(jì)算技術(shù)的迅速發(fā)展,機(jī)器人的應(yīng)用場(chǎng)景逐漸從孤立環(huán)境擴(kuò)展到與人共融的社會(huì)空間。這要求機(jī)器人在人群中安全可靠地導(dǎo)航,具有以下兩個(gè)方面的挑戰(zhàn):首先,由于智能體之間的通信并非廣泛存在,每個(gè)智能體的意圖對(duì)于機(jī)器人來(lái)說(shuō)是未知的且難以在線預(yù)測(cè);其次,行人通常遵循難以量化的微妙社會(huì)規(guī)范,這使得機(jī)器人更難在人群中導(dǎo)航。盡管存在挑戰(zhàn),但相關(guān)機(jī)器人導(dǎo)航問(wèn)題已得到廣泛研究,并涌現(xiàn)出許多有價(jià)值的成果。相關(guān)研究方法可分為基于反應(yīng)方法、基于軌跡方法和基于學(xué)習(xí)方法。
在基于反應(yīng)方法中,一項(xiàng)開創(chuàng)性工作是社會(huì)力模型(SFM),它使用吸引力和排斥力來(lái)建模人群中的交互行為。其他方法例如互惠速度障礙(RVO)和最優(yōu)互惠碰撞避免(ORCA)是將周圍智能體視為速度障礙,以在互惠假設(shè)下獲取最優(yōu)無(wú)碰撞速度。然而,上述算法都存在凍結(jié)機(jī)器人問(wèn)題。此外,這些算法僅采用當(dāng)前狀態(tài)作為輸入,經(jīng)常導(dǎo)致短視且不自然的行為,因此難以適用于現(xiàn)實(shí)世界的人機(jī)交互。
基于軌跡方法采用最大熵學(xué)習(xí)技術(shù)從行人數(shù)據(jù)中學(xué)習(xí)潛在的合作特征。該方法允許機(jī)器人展望未來(lái)并做出有遠(yuǎn)見的決策。然而,基于軌跡方法具有以下缺點(diǎn):首先,在線預(yù)測(cè)周圍智能體的運(yùn)動(dòng)軌跡并從寬闊的狀態(tài)空間中搜索可行路徑的計(jì)算成本高且難以保證實(shí)時(shí)性;其次,預(yù)測(cè)的軌跡可能占據(jù)大部分狀態(tài)空間,使得機(jī)器人的行為過(guò)于保守。
最近,基于學(xué)習(xí)方法備受關(guān)注。一部分基于學(xué)習(xí)方法利用模仿學(xué)習(xí)從所需行為的演示中學(xué)習(xí)策略。另一部分基于學(xué)習(xí)方法將機(jī)器人人群感知導(dǎo)航視為馬爾可夫決策過(guò)程,并利用深度強(qiáng)化學(xué)習(xí)來(lái)解決相關(guān)問(wèn)題。給定所有智能體的狀態(tài)轉(zhuǎn)移,規(guī)劃器首先從價(jià)值網(wǎng)絡(luò)中計(jì)算所有可能的下一個(gè)狀態(tài)值,然后根據(jù)價(jià)值網(wǎng)絡(luò)估計(jì)的最大狀態(tài)值選擇最優(yōu)動(dòng)作。然而,當(dāng)前基于學(xué)習(xí)方法并未充分考慮人機(jī)交互中行人的安全性和舒適性。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的不足,本發(fā)明提供了基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人人群感知導(dǎo)航方法及系統(tǒng);提出了一個(gè)新的價(jià)值網(wǎng)絡(luò)用于機(jī)器人決策,該網(wǎng)絡(luò)聯(lián)合推理了行人的空間關(guān)系和他們運(yùn)動(dòng)的時(shí)間關(guān)系。考慮行人實(shí)時(shí)行為,設(shè)計(jì)機(jī)器人的危險(xiǎn)區(qū)域,并制定新的獎(jiǎng)勵(lì)函數(shù),以進(jìn)一步保證行人在人機(jī)交互中的安全性和舒適性。
第一方面,本發(fā)明提供了基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人人群感知導(dǎo)航方法;
基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人人群感知導(dǎo)航方法,包括:
獲取智能體的可觀測(cè)狀態(tài)和不可觀測(cè)狀態(tài);所述智能體,包括服務(wù)機(jī)器人和行人;所述可觀測(cè)狀態(tài),包括:當(dāng)前智能體的位置、速度和半徑;所述不可觀測(cè)狀態(tài),包括:目標(biāo)、偏好速度和朝向角;
根據(jù)智能體的可觀測(cè)狀態(tài)和不可觀測(cè)狀態(tài),找到服務(wù)機(jī)器人在每個(gè)時(shí)間步的最優(yōu)導(dǎo)航策略,以實(shí)現(xiàn)機(jī)器人在n個(gè)行人之間導(dǎo)航,并在沒有任何碰撞的情況下到達(dá)目標(biāo)所在地;其中,n為正整數(shù);所述最優(yōu)導(dǎo)航策略以滿足最大化期望累積獎(jiǎng)賞為目標(biāo);所述最優(yōu)導(dǎo)航策略包括服務(wù)機(jī)器人在每個(gè)時(shí)間步的動(dòng)作指令,即在每個(gè)時(shí)間步服務(wù)機(jī)器人需實(shí)現(xiàn)的速度。
第二方面,本發(fā)明提供了基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人人群感知導(dǎo)航系統(tǒng);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210122517.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





