[發明專利]基于深度強化學習的艦載機保障作業人員調度方法有效
| 申請號: | 202111009089.4 | 申請日: | 2021-08-31 |
| 公開(公告)號: | CN113706023B | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 欒添添;付強;孫明曉;原張杰;張文玉;王萬鵬;胡占永;謝春旺 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06N3/08;G06K9/62;G06F30/27;G06F30/15 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍江省哈*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 艦載 保障 作業 人員 調度 方法 | ||
1.一種基于深度強化學習的艦載機保障作業人員調度方法,其特征在于,包括以下步驟:
步驟1:建立艦載機保障作業流程的馬爾科夫決策過程模型,為智能體訓練搭建環境;
步驟2:根據艦載機保障作業特點,確定智能體、智能體觀測空間與智能體動作空間;
步驟3:構建基于保障作業需求模型的獎勵函數,并將執行后一工序智能體的Q值引入執行前一工序智能體的獎勵函數中,進一步設計深度強化學習算法;
步驟4:將智能體投入訓練,直至準確生成調度指令,得到完成訓練的智能體;
步驟5:將完成訓練的智能體應用于場景中引導保障人員進行保障作業,此時智能體可將真實數據存儲進經驗池,以便空閑時間可再次學習;
所述步驟3的獎勵函數確定過程如下:
獎勵函數需滿足兩個條件:
(1)避免環境變為稀疏獎勵環境,即多步都無獎勵,導致智能體學習困難;
(2)獎勵值需符合實際邏輯;
故可寫出獎勵函數限制:
式中,rsta表示開始保障工序的即時獎勵;rnop表示無動作的即時獎勵;rmis表示誤動作的即時獎勵;rdis為因移動距離得到的獎勵;j表示艦載機;J表示艦載機集合;i表示工序i;b表示工序i的緊前工序;pj,b表示艦載機j的保障工序i的緊前工序是否完成,若完成則為1,否則為0;pj,i表示艦載機j的保障工序i是否執行完畢,若是則為1,否則為0;bj,i表示艦載機j是否正在進行保障工序i,若是則為1,否則為0;si表示保障小組是否正在進行保障作業,若是則為1,否則為0;k為權重系數,是超參數;sm表示航母是否機動,若是則為1,否則為0;remerg表示開始處理緊急情況的獎勵;
將各個智能體通過自身動作獲取的獎勵與執行該智能體緊后工序的智能體的Q值的加權和,作為各個智能體單步獲取的即時獎勵,Q值即智能體的動作價值函數,表示智能體未來折扣獎勵之和的期望值:
式中,ri為執行工序i所有保障小組單步所獲獎勵總和;μ、λ都為權重系數,且都是超參數;Qh表示執行工序i緊后工序h的小組的Q值;ri,n為執行工序i編號為n的保障小組單步由自身動作導致環境轉移獲得的即時獎勵,其表達式如下:
式中,msta表示開始工序的次數;mmis表示誤動作的次數;mnop表示無動作的次數;memerg表示開始處理緊急情況次數;Z為整數集;
所述步驟3的深度強化學習算法設計過程如下:
考慮該調度問題可承受容錯率低,在基于誤差和獎勵的雙指標優先經驗回放基礎上增加一個誤操作數指標,構成三指標優先經驗回放機制;再根據訓練過程各階段特性,對各指標設置相關參數,并根據訓練次數進行自適應調整,使學習目的性更強,增加收斂效果以達到預期訓練效果;各經驗優先度計算如式4所示:
Pj=(a(n)·Qj+b(n)·lossj+c(n)·misj)λt (4)
式中,Pj表示經驗j的優先度;a(n),b(n),c(n)為權重系數,它們隨訓練步數n的變化而變化;Qj為經驗j的Q值;lossj為經驗j的誤差;misj為經驗j的誤操作數;λ為重復選中經驗的損失率,其值介于0~1,為超參數;t為經驗j被選中的次數;
若每次訓練都計算整個經驗池經驗的優先度,則會耗費太多算力,且效率不高,故應用時,先采用隨機抽樣抽取n·k條經驗,再計算出其優先度,最終選出優先度最高的n條經驗進行學習。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111009089.4/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





