[發明專利]一種基于深度強化學習的室內地圖匹配方法有效
| 申請號: | 201910840334.2 | 申請日: | 2019-09-06 |
| 公開(公告)號: | CN110530371B | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 周亮;洪煥華;李瑩 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G01C21/20 | 分類號: | G01C21/20;G01C21/16;G01C21/00 |
| 代理公司: | 成都正華專利代理事務所(普通合伙) 51229 | 代理人: | 肖芳 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 室內 地圖 匹配 方法 | ||
1.一種基于深度強化學習的室內地圖匹配方法,其特征在于,包括:
S1、采集行人慣導模塊數據并對數據進行預處理,得到與地圖相關的像素坐標;
S2、根據步驟S1所得像素坐標,構建局部地圖生成模塊;
S3、定義當得到當前狀態下的修正編碼即可生成對應的修正坐標,包括:將軌跡修正的回歸問題通過自定義編碼的形式轉換為分類問題,通過求解當前狀態下的合適修正編碼對軌跡進行修正;
S4、將待修正的像素坐標信息與局部地圖聯合表征為當前位置的狀態;
S5、根據單個點的修正后坐標與標簽坐標的一致性以及修正后軌跡與標準路徑的相似度,設計獎勵機制,獎勵機制為:綜合考量單個點的修正后坐標與標簽坐標的一致性以及修正后軌跡與標準路徑的相似度返回一個量化數值;
S6、構建目標值網絡和當前值網絡的雙網絡模型,并將目標值網絡輸出和當前值網絡輸出的MSE作為損失函數;
S7、輸出經強化學習模型修正后的定位坐標。
2.根據權利要求1所述的基于深度強化學習的室內地圖匹配方法,其特征在于:所述步驟S1中采集行人行進過程中的相對大地定位坐標,并將大地定位坐標進行坐標轉換,生成與地圖相關的像素坐標。
3.根據權利要求1所述的基于深度強化學習的室內地圖匹配方法,其特征在于:根據步驟S1生成的像素坐標對地圖進行切割,生成與像素坐標相關的局部地圖。
4.根據權利要求1所述的基于深度強化學習的室內地圖匹配方法,其特征在于,獎勵根據了動作空間的設計,根據與真值數據的歐式距離進行分級,設模型輸出的編號為正確的話,獎勵為1;根據層級依次衰減為初始值的0.75。
5.根據權利要求4所述的基于深度強化學習的室內地圖匹配方法,其特征在于,所述步驟S6中當前值網絡通過基于貝爾曼方程的值迭代網絡將狀態、動作以及獎勵值量化為對應的Q值;目標值網絡與當前值網絡具有相同的網絡結構,不同的是網絡參數需要隔一定的時間步進行拷貝。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910840334.2/1.html,轉載請聲明來源鉆瓜專利網。





