[發明專利]一種基于拓撲圖的強化學習室內導航方法有效
| 申請號: | 202011402063.1 | 申請日: | 2020-12-04 |
| 公開(公告)號: | CN112484733B | 公開(公告)日: | 2022-10-25 |
| 發明(設計)人: | 蔡文哲;孫長銀;陸科林;徐樂玏 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G01C21/20 | 分類號: | G01C21/20;G06N20/00 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 杜靜靜 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 拓撲 強化 學習 室內 導航 方法 | ||
1.一種基于拓撲圖的強化學習室內導航方法,其特征在于,所述方法包括以下步驟:
S1:初始化智能體所在位置xt,將智能體初始位置作為坐標原點,并初始化拓撲圖G,將拓撲圖中的結點集合定義為N,連接關系集合定義為ε,初始化智能體策略πθ(st,gt),其中st為當前智能體所處環境中的全景第一人稱視角RGB圖像信息,gt為期望的目標位置對應的RGB圖像信息;
S2:根據ImageNet數據集預訓練出一個ResNet18模型,記作;
S3:若則新增節點N={n0};其中表示結點對應的視覺特征,x0表示結點所對應的相對位置信息,c0表示當前結點的訪問次數;
S4:將與所有節點N中視覺特征進行對比,若則認為拓撲圖上還未建立與目標gt相關的節點,此時進入S5,進行待探索節點wt的選取,若則說明找到目標gt對應節點ng,進入S6路徑規劃階段;
S5:根據SLAM模塊對當前智能體所在位置xt進行估計,根據位置信息xt和視覺信息st找到智能體所屬的結點np,并將np中到達次數cp加一,根據到達次數對np所有鄰居結點進行排序,根據Softmax策略進行選擇,得到待探索結點wt;
S6:根據目標gt,定位gt所屬節點ng與當前位置所對應結點np,針對拓撲圖G進行路徑規劃,得到拓撲圖在拓撲圖上的路徑{n1,n2,…ng},把路徑中的下一跳結點n1作為中繼目標節點wt;
S7:根據wt中的視覺信息以及當前所在位置目標特征輸入到策略網絡中,依據策略網絡采樣得到行動at,并與環境交互得到st+1,xt+1;
S8:若與相似度較高,則認為到達中繼目標結點wt,得到獎勵+1,反之得到獎勵-0.05;
S9:根據新觀測值st+1,xt+1來進行拓撲圖G更新,并重復S4,S5,S6,S7,S8步驟。
2.根據權利要求1所述的基于拓撲圖的強化學習室內導航方法,其特征在于,所述步驟S6中所使用的路徑規劃階段算法為dijkstra最短路徑計算方法。
3.根據權利要求2所述的基于拓撲圖的強化學習室內導航方法,其特征在于,所述步驟S5中,尋找智能體所屬結點np時,根據物理距離以及視覺特征距離同時考量,當且僅當||xt-xp||2Dist1;才認為當前時刻所屬結點為np,否則保持所屬結點等于上一時刻所屬結點。
4.根據權利要求2所述的基于拓撲圖的強化學習室內導航方法,其特征在于,所述步驟S5中,將探索的機制與拓撲圖相結合,具體采用了Softmax的策略,即待選擇的結點,基于軟策略的方式來進行結點選擇,能夠保證探索的多樣性;
5.根據權利要求1所述的基于拓撲圖的強化學習室內導航方法,其特征在于,所述步驟S9拓撲圖建立過程為:根據新觀測得到的位置輸入xt以及視覺輸入st,如果在已建立好的拓撲圖上找不到一個高相似度的結點,即mini∈K||xt-xi||MinDist1,那么以當前狀態為中心建立一個新的結點,并于上一時刻所在的結點nt-1建立連接關系;若找到一個高相似度的結點,則將當前所處位置xt+1也加入到所屬結點n中,并以均值方式來更新結點n中心。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011402063.1/1.html,轉載請聲明來源鉆瓜專利網。





