[發明專利]基于強化學習的多設備自適應監測方法有效
| 申請號: | 202110149333.0 | 申請日: | 2021-02-03 |
| 公開(公告)號: | CN112947554B | 公開(公告)日: | 2022-05-20 |
| 發明(設計)人: | 顧晶晶;馬敬艷;黃海濤 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 朱炳斐 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 設備 自適應 監測 方法 | ||
1.一種基于強化學習的多設備自適應監測方法,其特征在于,所述方法包括以下步驟:
步驟1,構建基于圖的無人機環境巡邏監控的環境模型拓撲結構;具體包括:
將整個無人機的巡邏環境映射到二維平面上,抽象為一個加權無向圖G=(V,E),V代表不同的巡邏節點,E代表不同巡邏節點之間的飛行通路,權值代表飛行通路的長度,所有巡邏節點的數量將被定義為N,即N=|V|;記G為巡邏監控圖,記巡邏節點為監控節點;
根據擱置時間的定義,每個監控節點都有一個變量表示每個監控節點距離上一次被訪問后所經歷的時間間隔,其中v∈V,所有節點在巡邏監控任務開始時,都被設置為0;在監控時刻t,所有節點的的平均值記為GIt,在過去的t個監控時刻中,的最大值記為WIt;尋找最優的巡邏監控策略π,使得在T個監控時段中,全時段平均擱置時間AIπ最小,即T個監控時刻中GIt的平均值最小;從局部來看,求最優的巡邏監控策略π,就是不斷減小WIπ的值,即減小監控過程中的最大WIt值;
步驟2,對無人機的運動方式和通信范圍進行定義和約束;具體包括:
巡邏監控無人機:設定所有無人機的飛行速度恒定,將巡邏監控圖G中的權重轉化為與監控時間t相關的值;
飛行約束:每個巡邏監控的無人機u在訪問監控節點v時,無人機可以訪問與當前所在監控節點v鄰接的監控節點v′,其中v′∈adj(v),同時也可以保持原地不動,同一個監控節點可以有多個無人機同時訪問,但是只會有一個無人機獲得獎勵值;
感知距離約束:當無人機巡邏到一個監控節點時,無人機會根據巡邏監控圖G,獲得其鄰接監控節點adj(v)的監控狀態信息;
步驟3,在巡邏監控無人機之間可進行全局通信、信息交互的前提下,對多無人機巡邏決策問題進行建模,構建基于信息交互的巡邏監控協同模型;具體包括:
運用馬爾科夫決策過程MDP對多無人機巡邏決策問題進行建模,在多無人機的巡邏決策問題中,MDP四元組定義如下:
表示無人機局部巡邏狀態,是一個有限的狀態集合,其中表示在時刻t、無人機i的巡邏狀態;
表示無人機能夠采取的巡邏監控動作集合,是一個有限的巡邏監控動作集合,其中表示在時刻t,無人機i所采取的巡邏動作,在基于圖的巡邏任務中,其動作空間包括移動到鄰接節點和保持在原節點不動;
表示無人機監控狀態轉移函數,即表示無人機在時刻t、所處監控狀態為s時,采取巡邏監控動作a,則在時刻t+1監控狀態轉移到s′的概率;
表示無人機巡邏監控獎勵函數,即表示無人機在時刻t、所處監控狀態為st、采取了巡邏監控動作at、監控狀態轉移到st+1時,無人機獲得的即時獎勵rt;
步驟4,利用Q-Learning方法獲取最優的多無人機巡邏監控策略;具體包括:
步驟4-1,構建多無人機巡邏監控獎勵函數,具體包括:
定義所有監控節點的瞬時平均擱置時間GI(t)為:
則在監控時長為T時,全時段的平均擱置時間AI(T)為:
令Pos(t)代表無人機在時刻t訪問的節點,令Φ(Pos(t),t)表示在時刻t無人機所訪問的節點的擱置時間,則所述瞬時平均擱置時間GI(t)有如下遞推式:
GI(0)=0
由此獲得:
進一步地獲得:
將該公式中的轉換為強化學習中的折扣獎勵函數:
式中,i代表監控時長,γ表示折扣因子,將每個監控節點的瞬時擱置時間作為即時獎勵;
因此在多無人機巡邏任務中,無人機群整體的折扣獎勵函數為:
步驟4-2,構建多無人機監控狀態轉移函數為:
P(s′s,a1,a2,a3,...aN,π1,...,πN)=P(s′s,a1,a2,a3,...aN)=P(s′s,a1,a2,a3,...aN,π'1,...,π'N)
式中,aj表示第j個無人機采取的巡邏監控動作,πj、π'j均表示第j個無人機采取的巡邏監控策略,πj≠π'j;
步驟4-3,基于所述折扣獎勵函數優化所述多無人機監控狀態轉移函數,獲得最優的多無人機巡邏監控策略;
步驟5,在極端環境多無人機之間不能互相通信的情況下,對多無人機巡邏決策問題進行建模,構建分布式巡邏監控協同模型;具體包括:
運用去中心化的部分可觀察馬爾科夫決策過程DEC-POMDP,對多無人機巡邏監控問題進行建模,在多無人機的巡邏監控問題中,DEC-POMDP概括為具體定義如下:
代表巡邏監控無人機的集合,即
代表全局監控環境狀態集合,其中表示在時刻t時,監控環境的狀態,監控環境狀態包括:所有無人機的位置信息,所有節點的擱置時間,以及所有其它的無人機在上一監控時刻采取的動作集合;
表示所有監控無人機的聯合動作集,其中代表無人機ui的動作集,表示無人機ui采取的動作,a表示某一時刻所有無人機采取的聯合動作且
表示聯合狀態轉移概率,即且s,表示在時間t、狀態為s時,巡邏監控無人機采取聯合動作a,則在時刻t+1、狀態轉移到s′的概率;
表示巡邏監控系統中的所有巡邏監控無人機的監控聯合獎勵函數,其中,
O:表示所有巡邏無人機的聯合觀測集,其中Oi表示巡邏無人機ui的局部觀測集,且oi∈Oi;每個巡邏無人機ui的觀測內容oi包括:ui所在的監控節點位置、ui來到此監控節點的邊信息、按照鄰接節點瞬時擱置時間排列的有序序列、與此監控節點相連的邊的權值信息;
Z:表示觀測概率,即Z[Oi+1=o∣St=s,At=a],表示在時間t、狀態為s時,巡邏無人機采取聯合動作a,則在時刻t+1,得到的聯合觀測為o的概率;
γ:γ∈[0,1),表示折扣因子,用于平衡立即獎勵和未來獎勵;
步驟6,通過集中式訓練分布式執行的訓練方法優化改進的值函數分解網絡VDNs模型,利用優化后的模型實現極端環境多無人機自適應巡邏監控;具體包括:
在值函數分解網絡VDNs中,全局值函數為Qtot,每個無人機的值函數為Qu;
步驟6-1,運用混合網絡保證全局值函數Qtot和每個無人機的值函數Qu的單調性相同,即:
步驟6-2,將全局狀態st作為超網絡的參數,輸出為混合網絡的權值及偏移量,由此將值函數分解網絡VDNs中損失函數改進為:
式中,b表示從經驗回放池中的抽樣的樣本容量,θ的參數更新方法與DQN中相同,即定期復制Qtot網絡的參數θ到θ-;
步驟6-3,基于步驟6-2改進的損失函數,運用隨機梯度下降法優化值函數分解網絡VDNs,利用優化后的模型實現極端環境多無人機自適應巡邏監控。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110149333.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種圓鋼的生產工藝
- 下一篇:一種高強度低松弛度熱鍍鋅用添加劑





