[發(fā)明專利]基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人人群感知導(dǎo)航方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202210122517.2 | 申請日: | 2022-02-09 |
| 公開(公告)號: | CN114485673A | 公開(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計(jì))人: | 周風(fēng)余;薛秉鑫;馮震;夏英翔;尹磊 | 申請(專利權(quán))人: | 山東大學(xué) |
| 主分類號: | G01C21/20 | 分類號: | G01C21/20 |
| 代理公司: | 濟(jì)南圣達(dá)知識產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強(qiáng)化 學(xué)習(xí) 服務(wù) 機(jī)器人 人群 感知 導(dǎo)航 方法 系統(tǒng) | ||
1.基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人人群感知導(dǎo)航方法,其特征是,包括:
獲取智能體的可觀測狀態(tài)和不可觀測狀態(tài);所述智能體,包括服務(wù)機(jī)器人和行人;所述可觀測狀態(tài),包括:當(dāng)前智能體的位置、速度和半徑;所述不可觀測狀態(tài),包括:目標(biāo)、偏好速度和朝向角;
根據(jù)智能體的可觀測狀態(tài)和不可觀測狀態(tài),找到服務(wù)機(jī)器人在每個(gè)時(shí)間步的最優(yōu)導(dǎo)航策略,以實(shí)現(xiàn)機(jī)器人在n個(gè)行人之間導(dǎo)航,并在沒有任何碰撞的情況下到達(dá)目標(biāo)所在地;其中,n為正整數(shù);所述最優(yōu)導(dǎo)航策略以滿足最大化期望累積獎(jiǎng)賞為目標(biāo);所述最優(yōu)導(dǎo)航策略包括服務(wù)機(jī)器人在每個(gè)時(shí)間步的動作指令,即在每個(gè)時(shí)間步服務(wù)機(jī)器人需實(shí)現(xiàn)的速度。
2.如權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人人群感知導(dǎo)航方法,其特征是,獲取智能體的可觀測狀態(tài)和不可觀測狀態(tài);所述智能體,包括服務(wù)機(jī)器人和行人;所述可觀測狀態(tài),包括:當(dāng)前智能體的位置、速度和半徑;所述不可觀測狀態(tài),包括:目標(biāo)、偏好速度和朝向角;
其中,可觀測狀態(tài)為當(dāng)前智能體的位置p=[px,py],速度v=[vx,vy]和半徑r;不可觀測狀態(tài)為目標(biāo)的位置g=[gx,gy],偏好速度vpref和朝向角θ。
3.如權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人人群感知導(dǎo)航方法,其特征是,所述最優(yōu)導(dǎo)航策略為:
其中,表示最優(yōu)導(dǎo)航策略;為t時(shí)刻獲得的獎(jiǎng)賞;A為動作空間,其中包含機(jī)器人可達(dá)到的速度集合;γ∈(0,1)為折扣因子;偏好速度vpref被用作折扣因子中的歸一化項(xiàng);為執(zhí)行動作at時(shí)從到的轉(zhuǎn)移概率;V*為最優(yōu)值函數(shù);表示t+Δt時(shí)刻最優(yōu)聯(lián)合狀態(tài)值;表示t時(shí)刻最優(yōu)聯(lián)合狀態(tài)值;表示t時(shí)刻聯(lián)合狀態(tài);表示t+Δt時(shí)刻聯(lián)合狀態(tài)。
4.如權(quán)利要求3所述的基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人人群感知導(dǎo)航方法,其特征是,服務(wù)機(jī)器人每個(gè)時(shí)間步對應(yīng)的執(zhí)行動作at通過值網(wǎng)絡(luò)結(jié)構(gòu)來預(yù)測;
所述值網(wǎng)絡(luò)結(jié)構(gòu),包括:若干個(gè)并聯(lián)支路;
每一個(gè)支路,包括:依次連接的空間映射單元和循環(huán)神經(jīng)網(wǎng)絡(luò);
每一個(gè)支路的循環(huán)神經(jīng)網(wǎng)絡(luò)輸出端均分別與第一多層感知器的輸入端和第二多層感知器的輸入端連接;第一多層感知器的輸出端和第二多層感知器的輸出端均與注意力模塊的輸入端連接,注意力模塊的輸出端與第三多層感知器的輸入端連接,第三多層感知器的輸出端用于輸出服務(wù)機(jī)器人每個(gè)時(shí)間步對應(yīng)的最優(yōu)狀態(tài)值估計(jì)。
5.如權(quán)利要求4所述的基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人人群感知導(dǎo)航方法,其特征是,每一個(gè)支路與一個(gè)行人對應(yīng);所述空間映射單元的輸入值為當(dāng)前行人的可觀測狀態(tài);所述空間映射單元的輸出值為當(dāng)前行人當(dāng)前時(shí)間步的空間關(guān)系特征的映射張量;所述循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入值為空間映射單元的輸出值、當(dāng)前時(shí)間步下行人的可觀測狀態(tài)以及當(dāng)前時(shí)間步下機(jī)器人的狀態(tài);所述循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出值為當(dāng)前時(shí)間步下當(dāng)前行人的隱含狀態(tài)。
6.如權(quán)利要求5所述的基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人人群感知導(dǎo)航方法,其特征是,當(dāng)前時(shí)間步下當(dāng)前行人的隱含狀態(tài)輸入到第一多層感知器中得到服務(wù)機(jī)器人與當(dāng)前行人的成對交互特征;
當(dāng)前時(shí)間步下當(dāng)前行人的隱含狀態(tài)輸入到第二多層感知器中得到不同行人的注意力權(quán)重;
對服務(wù)機(jī)器人與當(dāng)前行人的成對交互特征,和不同行人的注意力權(quán)重輸入到注意力模塊中進(jìn)行加權(quán)線性組合,得到人群的最終表示;
將人群的最終表示,輸入到第三多層感知器中,得到最終的服務(wù)機(jī)器人每個(gè)時(shí)間步對應(yīng)的最優(yōu)狀態(tài)值估計(jì)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210122517.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





