[發明專利]一種使用強化學習獲得無人機收集數據軌跡的方法有效
| 申請號: | 202110697404.0 | 申請日: | 2021-06-23 |
| 公開(公告)號: | CN113377131B | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 劉楠;慕紅偉;潘志文;尤肖虎 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G05D1/12 | 分類號: | G05D1/12 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 孫建朋 |
| 地址: | 211102 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 使用 強化 學習 獲得 無人機 收集 數據 軌跡 方法 | ||
1.一種使用強化學習獲得無人機收集數據軌跡的方法,輸入無人機起始位置,結束位置,地面各節點位置以及各地面節點待傳輸數據量和能量限制,考慮各地面節點本身待收集數據量不同和各自能量限制,采用Actor-Critic算法設計以最小化收集數據任務完成時間為目標的無人機收集數據軌跡,其特征在于,包括以下步驟:
步驟1、將待仿真區域按步長劃分為網格,定義狀態空間S,動作空間A以及及時獎勵r;
步驟2、使用參數為ω的Critic神經網絡表示狀態價值函數Qω(s,a),與Critic神經網絡相同網絡結構的目標Critic神經網絡參數為ω-;使用參數θ為的Actor神經網絡表示策略πθ(a|s),用來表示在狀態s下選擇動作a的概率,與Actor神經網絡相同網絡結構的目標Actor神經網絡參數為θ-;
步驟3、隨機初始化Critic神經網絡參數ω和Actor神經網絡參數θ,
初始化Critic目標神經網絡參數ω-=ω,Actor神經網絡參數θ-=θ;設置經驗回放池容量為D,用于存儲s,a,r,st+1,其中st+1為下一個狀態,更新過程取樣數量為B;
步驟4、初始回合標志為1,進入大循環,遞增遍歷直至達到最大回合數限制M,初始化狀態為起始狀態s1:
步驟5、對于單個回合內,t從1遞增至限制T:
步驟6、根據當前Actor神經網絡策略at=πθ(a|s)選擇動作獲得即時獎勵rt以及下一個狀態st+1;
步驟7、存儲狀態轉移記錄st,at,rt,st+1到經驗回放池中;
步驟8、從經驗回放池中隨機選擇B條記錄(si,ai,ri,si+1),分別表示當前狀態si,所執行動作ai,即時獎勵ri,下一狀態si+1;
步驟9、計算Actor更新目標其中γ表示折扣率,表示根據當前目標Actor神經網絡參數θ-執行的策略,表示根據當前目標Critic神經網絡參數ω-獲得的狀態價值函數;
步驟10、通過最小化損失函數更新Critic神經網絡參數ω;
步驟11、計算策略梯度
采用隨機梯度下降法更新Actor神經網絡參數θ;
步驟12、每隔一段時間更新目標Critic神經網絡參數ω-為τω+(1-τ)ω-,更新目標Actor神經網絡參數θ-為τθ+(1-τ)θ-,其中τ表示更新系數,取值為0.01。
2.根據權利要求1所述的使用強化學習獲得無人機收集數據軌跡的方法,其特征在于,基于策略的Actor神經網絡用來在每一步m選擇動作a(m),基于價值的Critic神經網絡,用來評估在狀態s(m)執行動作a(m)的價值函數V(s(m)),Actor根據V(s(m))不斷調整和優化策略π(a(m)|s(m))。
3.根據權利要求2所述的使用強化學習獲得無人機收集數據軌跡的方法,其特征在于,Actor神經網絡和Critic神經網絡均由多層前饋神經網絡組成。
4.根據權利要求3所述的使用強化學習獲得無人機收集數據軌跡的方法,其特征在于,Actor最后一層節點數對應動作數,輸出時使用softmax函數將動作選擇轉換為標準化百分比,Critic最后一層為一個節點,代表輸入狀態的狀態估計值。
5.根據權利要求4所述的使用強化學習獲得無人機收集數據軌跡的方法,其特征在于,Actor神經網絡接收狀態向量并選擇動作,Critic神經網絡接收狀態向量并估計狀態值,狀態值指當前策略的長期累計獎勵。
6.根據權利要求5所述的使用強化學習獲得無人機收集數據軌跡的方法,其特征在于,訓練過程中,Critic神經網絡對狀態值的估計被用來通過時序差分方式更新Actor對動作的選擇策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110697404.0/1.html,轉載請聲明來源鉆瓜專利網。





