[發明專利]一種基于多智能體強化學習的衛星觀測分布式在線規劃方法有效
| 申請號: | 202110243719.8 | 申請日: | 2021-03-05 |
| 公開(公告)號: | CN113128828B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 李大林;彭曉東 | 申請(專利權)人: | 中國科學院國家空間科學中心 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06N5/00 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 陳琳琳;楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 智能 強化 學習 衛星 觀測 分布式 在線 規劃 方法 | ||
本發明公開了一種基于多智能體強化學習的衛星觀測分布式在線規劃方法,所述方法包括:步驟1)為衛星觀測網絡中的每個衛星建立星上執行網絡;步驟2)建立集中訓練網絡,通過多次地面仿真對所有星上執行網絡進行集中訓練;步驟3)通過星地通信將訓練好的星上執行網絡分別上傳到對應的衛星,或者在發射前將訓練好的星上執行網絡注入對應的衛星;步驟4)當地面或者在軌衛星發現機遇觀測目標時,向衛星觀測網絡廣播觀測任務;步驟5)各衛星分別使用星上決策模型對是否接受該觀測任務進行決策;根據各自的決策結果,控制衛星實施觀測任務。本發明提出了考慮時間覆蓋度的自注意力網絡決策方法,提升了衛星間的決策協同性和訓練時策略梯度傳遞效率。
技術領域
本發明涉及多星觀測規劃問題領域,具體涉及一種基于多智能體強化學習的衛星觀測分布式在線規劃方法。
背景技術
集中決策的多星觀測規劃問題的解決方法能夠用于地面集中決策,也能夠用于星上集中決策。當用于星上集中決策時,需要一顆衛星作為決策的管理節點。這種方式下,需要將觀測需求匯總至管理節點,再由管理節點將規劃好的任務分配至各衛星。這對使用條件提出了很高的要求:
首先,需要管理節點具有強通信能力,能夠及時將任務下發到執行觀測的衛星。及時采集整個多星系統中各衛星的任務情況、剩余資源情況等。
其次,需要管理節點具有很強的處理能力,對整個多星系統的任務進行統一規劃。
再次,需要作為管理節點的衛星具有高可靠性。因為管理節點衛星一旦失效或者出現故障,將影響到整個多星系統的運行。
以上的要求,對于由微小衛星組成的多星觀測系統來說,是很難達到的。為了解決上述問題,基于多智能體系統的衛星規劃方法稱為一個重要的解決途徑。這里將每一個衛星作為一個智能體。每個衛星體獲取任務信息以及其它衛星的運行狀態,獨立進行決策。
在多智能體系統中,每個智能體的行為影響著環境的同時,其行為的決策也受著其他智能體的行為影響。智能體之間需要協調一致地探索好的行為或策略之間的聯系。這個問題非常重要,特別是在智能體之間無法通信的情況下。在博弈論中,協調博弈被定義為具有多重納什均衡的博弈。博弈論文獻中提出了納什均衡選擇的各種準則,如支付優勢、顯著性等。其中假設智能體在應用這些規則之前了解博弈模型。針對智能體無法了解博弈模型,但能夠通過與環境的交互來學習博弈模型的環境,學者們提出了多智能體強化學習方法來確定納什均衡,包括納什Q-學習、MADDPG,以及平均場Q-學習等。
發明內容
本發明的目的在于克服上述技術缺陷,提出了一種基于多智能體強化學習的衛星觀測分布式在線規劃方法;該方法首先建立了分布式天文觀測在線調度問題模型;然后在集中訓練-分布式決策強化學習框架下,設計了基于策略梯度共享的天文觀測任務在線調度問題求解網絡;最后通過仿真實驗,測試了算法的調度能力。
為實現上述目的,本發明提出了一種基于多智能體強化學習的衛星觀測分布式在線規劃方法,所述方法包括:
步驟1)為衛星觀測網絡中的每個衛星建立星上執行網絡;
步驟2)建立集中訓練網絡,通過多次地面仿真對所有星上執行網絡進行集中訓練;
步驟3)通過星地通信將訓練好的星上執行網絡分別上傳到對應的衛星,或者在發射前將訓練好的星上執行網絡注入對應的衛星;
步驟4)當地面或者在軌衛星發現機遇觀測目標時,向衛星觀測網絡廣播觀測任務;
步驟5)各衛星分別使用星上決策模型對是否接受該觀測任務進行決策;根據各自的決策結果,控制衛星實施觀測任務。
作為上述方法的一種改進,所述星上執行網絡為狀態注意度決策網絡,包括:輸入層、多頭自注意力網絡層、全連接層、乘積單元和SoftMax;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院國家空間科學中心,未經中國科學院國家空間科學中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110243719.8/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





