[發(fā)明專利]一種使用強化學習獲得無人機收集數(shù)據(jù)軌跡的方法有效
| 申請?zhí)枺?/td> | 202110697404.0 | 申請日: | 2021-06-23 |
| 公開(公告)號: | CN113377131B | 公開(公告)日: | 2022-06-03 |
| 發(fā)明(設(shè)計)人: | 劉楠;慕紅偉;潘志文;尤肖虎 | 申請(專利權(quán))人: | 東南大學 |
| 主分類號: | G05D1/12 | 分類號: | G05D1/12 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 孫建朋 |
| 地址: | 211102 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 使用 強化 學習 獲得 無人機 收集 數(shù)據(jù) 軌跡 方法 | ||
本發(fā)明公開了一種使用強化學習獲得無人機收集數(shù)據(jù)軌跡的方法,輸入無人機起始位置,結(jié)束位置,地面各節(jié)點位置以及待傳輸數(shù)據(jù)量和能量限制,采用Actor?Critic算法設(shè)計無人機輔助收集地面節(jié)點數(shù)據(jù)軌跡。該方法在最小化收集數(shù)據(jù)任務完成時間的目標下充分考慮了各地面節(jié)點本身待收集數(shù)據(jù)量不同和各自能量限制。在解法上通過將連續(xù)時間無人機軌跡設(shè)計問題轉(zhuǎn)化為離散時間馬爾科夫決策過程,基于Actor?Critic算法獲得無人機在每個狀態(tài)下的最佳收集數(shù)據(jù)決策和最佳運動決策。能設(shè)計無人機最佳收集數(shù)據(jù)軌跡,可以在保證收集完所有地面節(jié)點待傳輸數(shù)據(jù)量并滿足各地面節(jié)點能量限制的前提下顯著減少收集時間。
技術(shù)領(lǐng)域
本發(fā)明屬于移動通信技術(shù)領(lǐng)域,尤其涉及一種使用強化學習獲得無人機收集數(shù)據(jù)軌跡的方法。
背景技術(shù)
隨著物聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展,數(shù)據(jù)收集成為物聯(lián)網(wǎng)功能實現(xiàn)的重要基礎(chǔ)。雖然許多通信協(xié)議和路由算法被提出以實現(xiàn)在物聯(lián)網(wǎng)和無線傳感器網(wǎng)絡(luò)中的數(shù)據(jù)收集任務,但是由于傳感器節(jié)點的移動性以及自然災害發(fā)生時無法保證網(wǎng)絡(luò)的連通性,這些通信協(xié)議和路由算法很難很好地實現(xiàn)既定功能。
發(fā)明內(nèi)容
本發(fā)明目的在于提供一種使用強化學習獲得無人機收集數(shù)據(jù)軌跡的方法,以解決傳感器節(jié)點的移動性以及自然災害發(fā)生時無法保證網(wǎng)絡(luò)的連通性,這些通信協(xié)議和路由算法很難很好地實現(xiàn)既定功能的技術(shù)問題。
為解決上述技術(shù)問題,本發(fā)明的具體技術(shù)方案如下:
一種使用強化學習獲得無人機收集數(shù)據(jù)軌跡的方法,輸入無人機起始位置,結(jié)束位置,地面各節(jié)點位置以及各地面節(jié)點待傳輸數(shù)據(jù)量和能量限制,考慮各地面節(jié)點本身待收集數(shù)據(jù)量不同和各自能量限制,采用Actor-Critic算法設(shè)計以最小化收集數(shù)據(jù)任務完成時間為目標的無人機收集數(shù)據(jù)軌跡,包括以下步驟:
步驟1、將待仿真區(qū)域按步長劃分為網(wǎng)格,定義狀態(tài)空間S,動作空間A以及及時獎勵r;
步驟2、使用參數(shù)為ω的Critic神經(jīng)網(wǎng)絡(luò)表示狀態(tài)價值函數(shù)Qω(s,a),與Critic神經(jīng)網(wǎng)絡(luò)相同網(wǎng)絡(luò)結(jié)構(gòu)的目標Critic神經(jīng)網(wǎng)絡(luò)參數(shù)為ω-;使用參數(shù)θ為的Actor神經(jīng)網(wǎng)絡(luò)表示策略πθ(a|s),用來表示在狀態(tài)s下選擇動作a的概率,與Actor神經(jīng)網(wǎng)絡(luò)相同網(wǎng)絡(luò)結(jié)構(gòu)的目標Actor神經(jīng)網(wǎng)絡(luò)參數(shù)為θ-;
步驟3、隨機初始化Critic神經(jīng)網(wǎng)絡(luò)參數(shù)ω和Actor神經(jīng)網(wǎng)絡(luò)參數(shù)θ,
初始化Critic目標神經(jīng)網(wǎng)絡(luò)參數(shù)ω-=ω,Actor神經(jīng)網(wǎng)絡(luò)參數(shù)θ-=θ;設(shè)置經(jīng)驗回放池容量為D,用于存儲s,a,r,st+1,其中st+1為下一個狀態(tài),更新過程取樣數(shù)量為B;
步驟4、初始回合標志為1,進入大循環(huán),遞增遍歷直至達到最大回合數(shù)限制M,初始化狀態(tài)為起始狀態(tài)s1:
步驟5、對于單個回合內(nèi),t從1遞增至限制T:
步驟6、根據(jù)當前Actor神經(jīng)網(wǎng)絡(luò)策略at=πθ(a|s)選擇動作獲得即時獎勵rt以及下一個狀態(tài)st+1;
步驟7、存儲狀態(tài)轉(zhuǎn)移記錄st,at,rt,st+1到經(jīng)驗回放池中;
步驟8、從經(jīng)驗回放池中隨機選擇B條記錄(si,ai,ri,si+1),分別表示當前狀態(tài)si,所執(zhí)行動作ai,即時獎勵ri,下一狀態(tài)si+1;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學,未經(jīng)東南大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110697404.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





