[發(fā)明專利]一種基于強化學習的小型無人機防控指揮決策方法及系統(tǒng)有效

申請?zhí)枺?/td>	202110602580.1	申請日：	2021-05-31
公開（公告）號：	CN113268081B	公開（公告）日：	2021-11-09
發(fā)明（設計）人：	劉陽;溫志津;牛余凱;晉曉曦;李晉徽	申請（專利權）人：	中國人民解放軍32802部隊
主分類號：	G05D1/10	分類號：	G05D1/10
代理公司：	北京豐浩知識產權代理事務所(普通合伙) 11781	代理人：	李學康
地址：	100083 北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于強化學習小型無人機指揮決策方法系統(tǒng)
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于強化學習的小型無人機防控指揮決策方法，其特征在于，其步驟包括：

S1、確定小型無人機防控系統(tǒng)組成；確定小型無人機防控系統(tǒng)的組成，小型無人機防控系統(tǒng)包括探測分系統(tǒng)、處置分系統(tǒng)和指揮控制系統(tǒng)；其中，探測分系統(tǒng)用于提供作戰(zhàn)態(tài)勢信息，處置分系統(tǒng)負責實施防控處置，指揮控制系統(tǒng)用于從探測分系統(tǒng)接收作戰(zhàn)態(tài)勢信息，并調度多類處置手段生成處置策略；探測分系統(tǒng)包括單類型或多類型探測設備，處置分系統(tǒng)包括多類軟殺傷處置設備及硬攔截處置設備；指揮控制系統(tǒng)包括多源數據融合模塊、態(tài)勢分析模塊、防控籌劃模塊、效果評估模塊；

S2、建立小型無人機的三自由度質點運動模型；

S3、構建小型無人機防控指揮決策模型；

S4、訓練及優(yōu)化小型無人機防控指揮決策模型；

S5、驗證及評估小型無人機防控指揮決策模型的防控效果；

所述步驟S3具體包括：小型無人機防控系統(tǒng)的處置設備包括激光攔截設備和無線電干擾設備，其中，激光設備的動作包括打開激光設備、關閉激光設備、保持設備狀態(tài)、調整激光指向共四種動作，無線電干擾設備的動作包括開干擾、關干擾、保持動作、調整干擾指向共四種動作；對處置設備的各種動作采用三位二進制數進行動作編碼，三位二進制數的首位表示設備類型，三位二進制數的后兩位用來表示設備對應具體動作，即用三位二進制數構成的三元組來表示防控系統(tǒng)的處置設備所采取的動作；

根據小型無人機防控任務特性及馬爾科夫決策過程，建立小型無人機防控指揮決策模型，并設計狀態(tài)空間和處置決策空間，獎勵函數根據小型無人機防控系統(tǒng)的防控意圖確定；

所述的小型無人機防控指揮決策模型采用強化學習算法建立，強化學習中采用馬爾科夫決策過程來描述智能決策模型與環(huán)境的交互，該馬爾科夫決策過程利用狀態(tài)空間、動作空間、獎勵函數、折扣系數來實現；

其中，小型無人機防控指揮決策模型的狀態(tài)空間S的表達式為：

S＝[d_t，v_t，θ_t，ψ_t，t_l，t_j]，

其中，d_t的表達式為：

其中，和分別表示小型無人機在t時刻和t-Δt時刻的位置坐標，(x_a，y_a，z_a)表示探測設備的位置坐標，Δt表示馬爾科夫決策過程的步進時間間隔；d_t表示t時刻小型無人機相對探測設備的距離；v_t表示t時刻小型無人機的飛行速率；t_l表示激光攔截設備的出光時間；t_j表示無線電干擾設備開干擾的時間；θ和ψ分別表示為無人機的俯仰角和偏航角；

其中，小型無人機防控指揮決策模型的動作空間A的表達式為A＝[D_t，D_a1，D_a2]，其中，設備類型D_t取值為0或1，設備的動作類型由動作變量D_a1和D_a2的組合表示，動作變量[D_a1，D_a2]的具體取值包括00、01、10和11共四種組合；

當小型無人機防控系統(tǒng)的防控意圖為防御中遠距離目標時，此時的防御成功條件用小型無人機的各飛行分量的獎勵函數表達為，

其中，R_a、R_d和R_v分別表示角度獎勵函數、距離獎勵函數和速度獎勵函數；q表示小型無人機速度矢量與小型無人機和探測設備連線的夾角角度；q_m表示角度獎勵值為最小獎勵正值時的角度值；分別表示探測設備在無人機視線角范圍內及離開無人機視線角范圍的獎勵值，當角度q為0時，角度獎勵值最小；當角度q為π時，角度獎勵值最大；距離獎勵函數采用距離相關的線性函數表示，k為保持距離獎勵函數在最小獎勵正值的平滑系數，d_f和d_c分別表示小型無人機的防控區(qū)域最大半徑和探測設備最小探測距離；分別表示小型無人機的飛行速度低于一定飛行速度閾值和高于最大飛行速度閾值時所對應的獎勵系數；v_min，v_max，v_xh分別表示小型無人機的最小飛行速度、最大飛行速度和巡航飛行速度；

將R_a，R_d和R_v進行加權求和，得到小型無人機防控指揮決策模型的獎勵函數R的表達式具體為：

R＝a₁·R_a+a₂·R_d+a₃·R_v，

其中，a₁，a₂，a₃分別為角度獎勵函數、距離獎勵函數和速度獎勵函數對應的權值，可根據經驗值獲得，其滿足約束條件：a₁+a₂+a₃＝1，a₁，a₂，a₃≥0。