[發明專利]一種基于深度強化學習的機具三維定位方法在審
| 申請號: | 202111347415.2 | 申請日: | 2021-11-15 |
| 公開(公告)號: | CN114219849A | 公開(公告)日: | 2022-03-22 |
| 發明(設計)人: | 朱瑞凱;盧自強;孫凱;李德生;詹濤;焦仙宏;申洲;要糧安;王春;楊愛晟;杜娟;付興旺;謝強;宋宏圖;張珂 | 申請(專利權)人: | 國網山西省電力公司晉中供電公司;華北電力大學(保定) |
| 主分類號: | G06T7/70 | 分類號: | G06T7/70;G06T7/80;G06T17/00 |
| 代理公司: | 北京卓嵐智財知識產權代理事務所(特殊普通合伙) 11624 | 代理人: | 郭智 |
| 地址: | 030600 山*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 機具 三維 定位 方法 | ||
1.基于深度強化學習的機具三維定位方法,其特征在于,包括如下步驟:
步驟A,根據三維定位幾何模型計算出移動臺位置特征信息;
步驟B,根據已得到的位置特征信息構建馬爾科夫過程;
步驟C,根據深度強化學習框架計算出損失函數值和相應的Q函數;
步驟D,根據馬爾科夫過程及損失函數和Q函數訓練出基于三維定位的深度Q網絡。
2.如權利要求1所述的基于深度強化學習的三維定位算法,其特征在于,步驟A具體包括:
A1,根據三維定位的幾何模型,假設基站的三維坐標可表示為PB=(xB,yB,zB)T,障礙物的三維坐標為PS,n=(xS,n,yS,n,zS,n)T,移動臺的三維坐標科表示為PM=(xM,yM,zM)T,其中x,y,z為三維空間坐標,基站到目標的傳播路徑長度由dn表示,它由兩部分組成,即基站到障礙物的路徑長度為rn和從障礙物到移動臺的路徑長度為(dn-rn)。
3.如權利要求1所述的基于深度強化學習的三維定位算法,其特征在于,步驟B具體包括:
B1,根據已有的三維無線定位位置信息,MDP中的狀態空間st由目標位置特征(到達角)AOA、(離開角)AOD、(到達時間)TOA組成,TOA可由傳播路徑長度測量得出,傳播路徑的長度由dn表示,而第n個非視距(NLOS)傳播路徑的AOD表示為第n個NLOS傳播路徑的AOA表示為其中當時,
B2,MDP的動作空間at則由目標根據狀態st做出采取行動的動作組成,包括保持在同一個網格上,向北、南、西、東、西北、東北、西南、東南方向移動一個網格;
B3,MDP的獎勵函數設置為
其中τ系統偏離參數,且b=(b1,b2,...,b2N-1,b2N)T,n=1,...,N表示非視距路徑數量。
4.如權利要求1所述的基于深度強化學習的三維定位算法,其特征在于,步驟C具體包括:
C1,利用已設計好的狀態、動作和獎勵用于DQN的訓練,而DQN的核心是Q函數:其中φ(st)是DQN的狀態重判,at表示在時間步t上采取的動作,是訓練時的系統參數;
C2,對于采樣小批量中的每個經驗元組,目標網絡用于計算的損失函數為其中符號E[·]表示期望值的計算,yj是目標值,表示為γ∈[0,1]是折扣因子。
5.如權利要求1所述的基于深度強化學習的三維定位算法,其特征在于,步驟D具體包括:
D1,初始化Q網絡參數值,從輸入到輸出決策的每次映射期間,Q網絡生成一個結果,該結果由當前狀態φ(sj)、當前動作aj、即時獎勵rj+1和下一狀態φ(sj+1)組成。然后將這樣的結果存儲到重放存儲器D中;
D2,在初始化步驟中創建的具有重放內存容量的重放存儲器D。之后,新生成的經驗元組(φ(st),at,rt+1,φ(st))被堆疊到D中。當存儲的經驗元組的長度達到一定數量時,開始訓練Q網絡;
D3,對于訓練中的每個時間步t,從D中采樣小批量數據更新目標值yj,然后利用yj更新損失函數,一旦計算出損失值,就應用隨機梯度下降方法來訓練Q網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網山西省電力公司晉中供電公司;華北電力大學(保定),未經國網山西省電力公司晉中供電公司;華北電力大學(保定)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111347415.2/1.html,轉載請聲明來源鉆瓜專利網。





