[發明專利]一種基于多智能體強化學習的衛星觀測分布式在線規劃方法有效
| 申請號: | 202110243719.8 | 申請日: | 2021-03-05 |
| 公開(公告)號: | CN113128828B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 李大林;彭曉東 | 申請(專利權)人: | 中國科學院國家空間科學中心 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06N5/00 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 陳琳琳;楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 智能 強化 學習 衛星 觀測 分布式 在線 規劃 方法 | ||
1.一種基于多智能體強化學習的衛星觀測分布式在線規劃方法,所述方法包括:
步驟1)為衛星觀測網絡中的每個衛星建立星上執行網絡;
步驟2)建立集中訓練網絡,通過多次地面仿真對所有星上執行網絡進行集中訓練;
步驟3)通過星地通信將訓練好的星上執行網絡分別上傳到對應的衛星,或者在發射前將訓練好的星上執行網絡注入對應的衛星;
步驟4)當地面或者在軌衛星發現機遇觀測目標時,向衛星觀測網絡廣播觀測任務;
步驟5)各衛星分別使用星上決策模型對是否接受該觀測任務進行決策;根據各自的決策結果,控制衛星實施觀測任務;
所述星上執行網絡為狀態注意度決策網絡,包括:輸入層、多頭自注意力網絡層、全連接層、乘積單元和SoftMax;
當星上執行網絡設置在衛星sj上時,所述輸入層,將觀測任務狀態向量和其它衛星時間覆蓋度向量進行拼接;得到與衛星數量N相同的觀測狀態向量i為觀測任務的序號,j為觀測衛星的序號,pi為觀測任務i所需的觀測時長,ωi為觀測任務i的總觀測收益;為觀測衛星sn對觀測任務i的時間覆蓋度;將N個觀測狀態向量輸入到多頭自注意力網絡層中;
所述多頭自注意力網絡層,用于獲取衛星觀測網絡中其它衛星對當前衛星sj的注意力,按照當前衛星的序號j,提取當前衛星對應的二維決策向量并輸出至全連接層;
所述全連接層,用于對二維決策向量處理后輸出至乘法單元;
所述乘法單元,用于將全連接層的輸出與衛星sj的可用狀態向量相乘,將結果輸出至SoftMax;
所述SoftMax,用于對相乘結果進行過濾,輸出最終的動作概率向量
2.根據權利要求1所述的基于多智能體強化學習的衛星觀測分布式在線規劃方法,其特征在于,每顆衛星的時間覆蓋度的計算步驟包括:
在[t0,t1]時段內,若衛星s對目標o分別在時間窗口Wc=[startc,endc],t0≤startc<endc≤t1,c=1,...,C,中可見;C為時間窗口總數;衛星s的可見時段V(s,o,t0,t1)為:
V(s,o,t0,t1)={v|v∈[startc,endc],c=1,…,C}
定義可見時段V的模|V(s,o,t0,t1)|為各段可見窗口時長的和:
在[t0,t1]時段內,衛星s對目標o時間覆蓋度C(s,o,t0,t1)為:
3.根據權利要求2所述的基于多智能體強化學習的衛星觀測分布式在線規劃方法,其特征在于,所述集中訓練網絡包括:第一全連接層、第二全連接層、多頭自注意力層和第三全連接層;第一全連接層的輸入為:N個觀測衛星的狀態向量,其中,觀測衛星sn的狀態向量包括:可觀察狀態和其星上執行網絡輸出的動作概率向量第三全連接層的輸出為狀態動作值Q。
4.根據權利要求3所述的基于多智能體強化學習的衛星觀測分布式在線規劃方法,其特征在于,所述步驟2)具體包括:
從歷史決策記錄中隨機采樣歷史記錄,作為訓練狀態注意度決策網絡的訓練集;觀測任務i的歷史記錄Hi中包含每次決策時各衛星的決策所利用狀態信息、決策結果以及實際觀測收益,決策結果包括接受和拒絕兩個的概率,即:
式中,表示接收到觀測任務i前,衛星sj的可觀察狀態;表示衛星sj執行決策動作后,改變后的可觀察狀態;為衛星sj決策網絡所計算出的兩個動作的概率分布,Ri為實際收益;
根據集中訓練網絡的計算的當前狀態與采取決策動作之后的總狀態動作值函數值的變化與實際收益間的偏差,對集中訓練網絡的參數進行調整;網絡訓練的目標函數為:
式中,Qθ為策略參數θ定義的狀態動作值;為狀態動作值的目標網絡函數;該目標網絡函數的參數周期性的根據狀態動作值函數進行更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院國家空間科學中心,未經中國科學院國家空間科學中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110243719.8/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





