[發明專利]基于深度強化學習的艦載機保障作業人員調度方法有效

申請號：	202111009089.4	申請日：	2021-08-31
公開（公告）號：	CN113706023B	公開（公告）日：	2022-07-12
發明（設計）人：	欒添添;付強;孫明曉;原張杰;張文玉;王萬鵬;胡占永;謝春旺	申請（專利權）人：	哈爾濱理工大學
主分類號：	G06Q10/06	分類號：	G06Q10/06;G06N3/08;G06K9/62;G06F30/27;G06F30/15
代理公司：	暫無信息	代理人：	暫無信息
地址：	150080 黑龍江省哈***	國省代碼：	黑龍江;23
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于深度強化學習艦載保障作業人員調度方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于深度強化學習的艦載機保障作業人員調度方法，包括以下步驟：構建艦載機保障過程的馬爾可夫決策過程(Markov Decision Process,MDP)模型，作為智能體訓練環境；根據保障作業流程，確定智能體及其觀測空間與動作空間；隨后設計獎勵函數、經驗抽取機制和終止條件，并基于此設計網絡結構；通過設置主要參數初始化環境，并采用多智能體深度確定策略梯度算法(Multi Agent Deep Deterministic Policy Gradient,MADDPG)訓練智能體；最終使用完成訓練智能體的決策輔助指揮人員進行保障作業人員調度。本發明可用于人員調度智能決策，將各類保障小組設定為智能體，輔助指揮人員和保障人員進行決策，提高保障作業決策效率，從而提高艦載機出動回收架次率。

(一)技術領域

本發明屬于人工智能技術領域，特別涉及一種基于深度強化學習的艦載機保障作業人員調度方法。

(二)背景技術

航母具有不可替代的軍事價值。衡量航母作戰能力的指標通常規定為艦載機架次率，故提高艦載機架次率是航母研究的重點。合理的調度保障作業人員能提高整個甲板運行效率，從而提高艦載機架次率，而合理調度的前提是有合理的調度算法作為支撐，故合理的調度算法是關鍵。

傳統智能優化算法雖能得出較為優秀的調度策略，但受限于其較長的求解時間，無法實時處理如燃油泄漏、設備故障等緊急突發情況。論文《基于改進禁忌搜索算法的艦載機保障作業調度》提出一種改進的禁忌搜索算法并用其優化艦載機保障調度方案，但未考慮保障作業中的緊急突發情況；論文《采用改進遺傳算法的艦載機保障調度方法》提出一種基于改進的遺傳算法的艦載機調度方法，且該方法具有一定抗干擾能力，但無法達到實時動態決策的效果；專利《基于深度強化學習的艦載機出動回收在線調度方法》提出了基于深度Q網絡的艦載機出動回收多目標在線調度方法，但未針對保障作業人員進行調度。且以上算法均只考慮艦載機的調度問題，然而實際保障作業都是由保障人員實施的，即保障人員調度對架次率能夠產生較大影響，故對其進行研究具有重要意義。

(三)發明內容

本發明旨在提供基于深度強化學習的艦載機保障作業人員調度算法，可輔助指揮人員進行決策，提高艦載機保障工作執行效率。為實現以上目的，本發明采用如下技術方案：

步驟1：建立艦載機保障作業流程的馬爾科夫決策過程模型，為智能體訓練搭建環境；抽出其重要環境參數以便對環境進行初始化設置，使該方法適應多種甲板環境；

步驟2：根據其保障作業特點，確定智能體及其觀測空間與動作空間；設定4類型保障小組為4個智能體，其與甲板環境進行直接交互，故每個智能體都能觀測到航母機動狀態，但對于各機位艦載機，各智能體只可觀察到自身負責工序狀況，即為其觀測空間；各智能體也只能對其自身負責工序做出反應，即為其動作空間；

步驟3：根據保障作業需求，構建基于其模型的獎勵函數，并將執行后一工序智能體的Q值引入執行其前一工序智能體的獎勵函數中，進一步設計其網絡結構、經驗抽取模式及終止條件；為避免環境變為稀疏獎勵環境，同時也需使獎勵符合邏輯，故對獎勵做出必要限制，其中限制為：

式中，r_sta表示開始保障工序的即時獎勵；r_nop表示不動作的即時獎勵；r_mis表示誤動作的即時獎勵；r_dis為因移動距離得到的獎勵；j表示艦載機；J表示艦載機集合；i表示工序i；b表示工序i的緊前工序；p_j,b表示艦載機j的工序i的緊前工序是否完成，若完成則為1，否則為0；p_j,i表示艦載機j的工序i是否執行完畢，若是則為1，否則為0；b_j,i表示艦載機j是否正在進行工序i，若是則為1，否則為0；s_i表示保障小組是否正在進行保障作業，若是則為1，否則為0；k為權重系數，是超參數；s_m表示航母是否機動，若是則為1，否則為0；r_emerg表示開始處理緊急情況的獎勵；