[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的兩階段多機(jī)器人環(huán)境覆蓋方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202211345844.0 | 申請(qǐng)日: | 2022-10-31 |
| 公開(公告)號(hào): | CN115809751B | 公開(公告)日: | 2023-06-27 |
| 發(fā)明(設(shè)計(jì))人: | 程吉禹;朱莉娜;張偉;張浩 | 申請(qǐng)(專利權(quán))人: | 山東大學(xué) |
| 主分類號(hào): | G06Q10/047 | 分類號(hào): | G06Q10/047;G06F18/214;G06N3/0464;G06N3/08 |
| 代理公司: | 濟(jì)南圣達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 于鳳洋 |
| 地址: | 250061 山東*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 階段 機(jī)器人 環(huán)境 覆蓋 方法 系統(tǒng) | ||
1.一種基于強(qiáng)化學(xué)習(xí)的兩階段多機(jī)器人環(huán)境覆蓋方法,其特征在于,包括:
檢測(cè)未被覆蓋的主動(dòng)區(qū)域,為每個(gè)機(jī)器人分配一個(gè)規(guī)劃路徑最小且與其余機(jī)器人沒(méi)有沖突的主動(dòng)區(qū)域作為子目標(biāo);
基于分配的子目標(biāo)和機(jī)器人位置,提取機(jī)器人在環(huán)境中感知到的局部信息的特征向量;
融合鄰居的局部感知信息特征向量,得到融合后的特征向量;
融合后的特征向量通過(guò)多層感知映射出動(dòng)作分布,根據(jù)采樣到的執(zhí)行動(dòng)作,機(jī)器人完成覆蓋的任務(wù);
其中,所述子目標(biāo)的分配方法為:
(1)基于多級(jí)圖神經(jīng)網(wǎng)絡(luò),計(jì)算各子目標(biāo)位置與機(jī)器人之間的曼哈頓距離,構(gòu)建成本矩陣,以兩個(gè)組內(nèi)圖和成本矩陣構(gòu)建組間圖,具體方法為:
建立兩級(jí)圖神經(jīng)網(wǎng)絡(luò),以機(jī)器人為節(jié)點(diǎn)、機(jī)器人之間的通信連接性作為邊構(gòu)建組內(nèi)圖Grobs={Vrobs,Erobs},Vrobs是機(jī)器人節(jié)點(diǎn)集合,Erobs是機(jī)器人之間的通信連接集合;以主動(dòng)區(qū)域質(zhì)心為節(jié)點(diǎn)、主動(dòng)區(qū)域質(zhì)心之間的歐式距離作為邊構(gòu)建組內(nèi)圖Gcens={Vcens,Ecens},Vcens是主動(dòng)區(qū)域質(zhì)心集合,Ecens是主動(dòng)區(qū)域質(zhì)心之間的歐式距離集合;
基于兩個(gè)組內(nèi)圖和收益矩陣,構(gòu)建目標(biāo)與機(jī)器人一一對(duì)應(yīng)的組間圖Grc={Vrobs,Vcens,Erc},組間邊表示從機(jī)器人當(dāng)前位置移動(dòng)到質(zhì)心處的收益,N、M分別是環(huán)境中機(jī)器人與質(zhì)心數(shù)量;
由于每個(gè)機(jī)器人可移動(dòng)到任意質(zhì)心處,因此組間邊內(nèi)的所有元素eij均為非0,計(jì)算方式如下:
eij=f(li,j)
li,j=|pi-pj|,i∈N,j∈M
其中,pi表示機(jī)器人i的位置,|·|表示兩節(jié)點(diǎn)的曼哈頓距離,f(·)表示基于曼哈頓距離的移動(dòng)成本,采用指數(shù)函數(shù);
(2)基于匈牙利算法,在樹上尋找沒(méi)有重復(fù)且成本最小的匹配點(diǎn),為當(dāng)前時(shí)刻每個(gè)機(jī)器人分配一個(gè)與其余機(jī)器人沒(méi)有沖突的子目標(biāo);
所述提取機(jī)器人在環(huán)境中感知到的局部信息的特征向量,具體步驟為:
基于機(jī)器人位置到子目標(biāo)的無(wú)碰撞最短路徑和以機(jī)器人位置為中心的局部感受野,構(gòu)建子目標(biāo)通道;
從環(huán)境中獲取局部觀測(cè)信息,包含了感知范圍內(nèi)的歷史軌跡、鄰居機(jī)器人的相對(duì)位置、障礙物和已覆蓋區(qū)域;
組合局部觀測(cè)信息與子目標(biāo)通道為局部感知信息,從局部感知信息中通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取一維特征向量。
2.如權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的兩階段多機(jī)器人環(huán)境覆蓋方法,其特征在于,在格點(diǎn)地圖中,通過(guò)檢測(cè)地圖中的空白區(qū)域,識(shí)別出格點(diǎn)地圖中的主動(dòng)區(qū)域,利用主動(dòng)區(qū)域的質(zhì)心表征該區(qū)域的方向和位置,將所有主動(dòng)區(qū)域的質(zhì)心位置作為元素構(gòu)成子目標(biāo)候選集合。
3.如權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的兩階段多機(jī)器人環(huán)境覆蓋方法,其特征在于,當(dāng)兩個(gè)機(jī)器人之間的通信范圍小于通信閾值時(shí),兩個(gè)機(jī)器人之間可互稱鄰居;
通過(guò)融合圖神經(jīng)網(wǎng)絡(luò),進(jìn)行機(jī)器人之間的通信、交換及與鄰居局部感知信息特征向量的融合,得到融合后的特征向量。
4.如權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的兩階段多機(jī)器人環(huán)境覆蓋方法,其特征在于,所述融合后的特征向量通過(guò)多層感知機(jī)映射出動(dòng)作分布,是將融合后特征向量輸入到訓(xùn)練好的多層感知機(jī)中,輸出一維的動(dòng)作分布;
機(jī)器人從動(dòng)作分布中隨機(jī)采樣基本動(dòng)作,作為與環(huán)境交互的執(zhí)行動(dòng)作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211345844.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測(cè)或優(yōu)化,例如線性規(guī)劃、“旅行商問(wèn)題”或“下料問(wèn)題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時(shí)間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉(cāng)儲(chǔ)、裝貨、配送或運(yùn)輸;存貨或庫(kù)存管理,例如訂貨、采購(gòu)或平衡訂單
G06Q10-10 .辦公自動(dòng)化,例如電子郵件或群件的計(jì)算機(jī)輔助管理
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





