[發(fā)明專利]基于學(xué)習(xí)組件庫的輔助型移動機(jī)器人導(dǎo)航控制系統(tǒng)和方法有效
| 申請?zhí)枺?/td> | 202010522452.1 | 申請日: | 2020-06-10 |
| 公開(公告)號: | CN111857107B | 公開(公告)日: | 2021-08-31 |
| 發(fā)明(設(shè)計(jì))人: | 孫長銀;何子辰;董璐;陳啟軍;王嘉偉 | 申請(專利權(quán))人: | 同濟(jì)大學(xué) |
| 主分類號: | G05D1/00 | 分類號: | G05D1/00;G05D1/02;G05B23/02;G05B17/02 |
| 代理公司: | 南京縱橫知識產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 朱遠(yuǎn)楓 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 學(xué)習(xí) 組件 輔助 移動 機(jī)器人 導(dǎo)航 控制系統(tǒng) 方法 | ||
1.一種基于學(xué)習(xí)組件庫的輔助型移動機(jī)器人導(dǎo)航控制系統(tǒng),其特征在于,包括學(xué)習(xí)組件庫,所述學(xué)習(xí)組件庫包括:初始化組件、環(huán)境建模組件、路徑規(guī)劃組件、核心算法組件、測試組件、優(yōu)化組件和可視化組件;所述初始化組件,用于完成特定移動機(jī)器人類型對應(yīng)的狀態(tài)空間、動作空間的初始化,以及用于設(shè)立獎勵函數(shù);所述環(huán)境建模組件,用于讀取并處理移動機(jī)器人搭載的傳感器數(shù)據(jù),以及用于確定定位機(jī)器人所處的全局位置數(shù)據(jù)以及在進(jìn)行仿真任務(wù)時(shí),建立虛擬的與移動機(jī)器人交互的環(huán)境;所述路徑規(guī)劃組件,用于提供能夠選擇的路徑規(guī)劃算法以實(shí)現(xiàn)最優(yōu)導(dǎo)航路徑;所述核心算法組件,用于提供多種策略的強(qiáng)化學(xué)習(xí)算法,使得輸出控制器指令完成強(qiáng)化學(xué)習(xí)閉環(huán)控制;所述測試組件,用于提供供選擇的仿真環(huán)境中的擾動方法,以測試?yán)煤诵乃惴ńM件確定的強(qiáng)化學(xué)習(xí)算法的性能;所述優(yōu)化組件,用于提供供選擇的優(yōu)化算法對利用核心算法組件確定的強(qiáng)化學(xué)習(xí)算法的選定參數(shù)進(jìn)行調(diào)節(jié),以提升導(dǎo)航控制算法的性能;所述可視化組件,用于在進(jìn)行仿真或者實(shí)際學(xué)習(xí)任務(wù)時(shí),將核心算法組件以及測試組件的輸出數(shù)值實(shí)現(xiàn)可視化;
基于學(xué)習(xí)組件庫的輔助型移動機(jī)器人導(dǎo)航控制系統(tǒng)執(zhí)行以下可控制方法,包括以下步驟:
從預(yù)先構(gòu)建的初始化組件選擇與特定移動機(jī)器人類型對應(yīng)的狀態(tài)空間和動作空間,并設(shè)立強(qiáng)化學(xué)習(xí)的獎勵函數(shù)完成初始化;
利用預(yù)先構(gòu)建的環(huán)境建模組件構(gòu)建強(qiáng)化學(xué)習(xí)仿真環(huán)境;通過環(huán)境建模組件獲取障礙物相對位置與移動機(jī)器人自身位置,利用預(yù)先構(gòu)建的路徑規(guī)劃組件選擇所需的路徑規(guī)劃算法,規(guī)劃最優(yōu)導(dǎo)航路徑;根據(jù)路徑規(guī)劃結(jié)果,調(diào)節(jié)導(dǎo)航控制算法的獎勵函數(shù);
從預(yù)先構(gòu)建的核心算法組件選擇確定強(qiáng)化學(xué)習(xí)算法,聯(lián)合定義的動作空間、狀態(tài)空間、獎勵函數(shù)與強(qiáng)化學(xué)習(xí)仿真環(huán)境,選擇核心算法模塊,進(jìn)行訓(xùn)練;通過底層控制模塊或者直接輸出控制器指令進(jìn)行動作,接著再次通過環(huán)境建模組件獲取障礙物相對位置與移動機(jī)器人自身位置,重復(fù)步驟完成強(qiáng)化學(xué)習(xí)閉環(huán)控制;
從測試組件選擇擾動方法,測試從核心算法組件選擇確定的強(qiáng)化學(xué)習(xí)算法的性能;
從優(yōu)化組件中選擇確定優(yōu)化算法對利用核心算法組件確定的強(qiáng)化學(xué)習(xí)算法的選定參數(shù)進(jìn)行調(diào)節(jié),以提升導(dǎo)航控制算法的性能;
利用可視化組件將核心算法組件以及測試組件的輸出數(shù)值實(shí)現(xiàn)可視化,以實(shí)時(shí)監(jiān)測學(xué)習(xí)訓(xùn)練過程。
2.根據(jù)權(quán)利要求1所述的一種基于學(xué)習(xí)組件庫的輔助型移動機(jī)器人導(dǎo)航控制系統(tǒng),其特征在于,所述核心算法組件包括同策略模塊、異策略模塊以及綜合策略模塊,所述同策略模塊用于封裝同策略的強(qiáng)化學(xué)習(xí)算法,所述異策略用于封裝異策略的強(qiáng)化學(xué)習(xí)算法;所述綜合策略模塊,用于封裝綜合策略算法,所述綜合策略算法為綜合同策略與異策略的數(shù)據(jù)驅(qū)動強(qiáng)化算法。
3.根據(jù)權(quán)利要求2所述的一種基于學(xué)習(xí)組件庫的輔助型移動機(jī)器人導(dǎo)航控制系統(tǒng),其特征在于,所述綜合策略算法包括:通過將學(xué)習(xí)的新策略反饋給移動機(jī)器人系統(tǒng),收集特定系統(tǒng)數(shù)據(jù)來優(yōu)化強(qiáng)化學(xué)習(xí)算法的適應(yīng)能力;同時(shí)將重新收集的數(shù)據(jù)與以往回放的經(jīng)驗(yàn)數(shù)據(jù)結(jié)合,再次學(xué)習(xí)最終確定強(qiáng)化學(xué)習(xí)算法。
4.根據(jù)權(quán)利要求1所述的一種基于學(xué)習(xí)組件庫的輔助型移動機(jī)器人導(dǎo)航控制系統(tǒng),其特征在于,所述系統(tǒng)還包括:底層控制算法組件,所述底層控制算法組件能夠直接用于提供作為與強(qiáng)化學(xué)習(xí)算法對比的基準(zhǔn)組件,也能夠與上層強(qiáng)化學(xué)習(xí)算法結(jié)合,搭建從狀態(tài)直接到執(zhí)行器指令的閉環(huán)控制強(qiáng)化學(xué)習(xí)系統(tǒng)。
5.根據(jù)權(quán)利要求1所述的一種基于學(xué)習(xí)組件庫的輔助型移動機(jī)器人導(dǎo)航控制系統(tǒng),其特征在于,所述環(huán)境建模組件包括:傳感器數(shù)據(jù)處理模塊、移動機(jī)器人定位模塊和強(qiáng)化學(xué)習(xí)環(huán)境建模模塊,所述傳感器數(shù)據(jù)處理模塊用于讀取并處理移動機(jī)器人搭載的傳感器數(shù)據(jù),所述移動機(jī)器人定位模塊用于實(shí)時(shí)定位機(jī)器人所處的全局位置數(shù)據(jù);所述強(qiáng)化學(xué)習(xí)環(huán)境建模模塊用于在進(jìn)行仿真任務(wù)時(shí),建立虛擬的與移動機(jī)器人交互的環(huán)境。
6.根據(jù)權(quán)利要求1所述的一種基于學(xué)習(xí)組件庫的輔助型移動機(jī)器人導(dǎo)航控制系統(tǒng),其特征在于,所述優(yōu)化組件提供的供選擇的優(yōu)化算法包括正則化算法,所述正則化算法包括L1和L2正則化算法、熵正則化算法和/或早停算法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同濟(jì)大學(xué),未經(jīng)同濟(jì)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010522452.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





