[發明專利]一種基于強化學習的多階段裝備組合規劃方法有效
| 申請號: | 201911165682.0 | 申請日: | 2019-11-25 |
| 公開(公告)號: | CN110989343B | 公開(公告)日: | 2020-08-28 |
| 發明(設計)人: | 張驍雄;李明浩;丁鯤;夏博遠;張慧 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 江蘇瑞途律師事務所 32346 | 代理人: | 韋超峰;金龍 |
| 地址: | 410073 湖南省長*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 階段 裝備 組合 規劃 方法 | ||
1.一種基于強化學習的多階段裝備組合規劃方法,其特征在于,包括以下步驟:
S1:確定輸入參數
所述輸入參數包括:裝備項目數量、場景數量、場景信息、階段規劃區間、總經費以及預算違背閾值,所述場景信息包括裝備的效能和成本;
S2:構建組合優化模型
首先,針對單階段裝備組合優化問題,考慮多個可能場景,構建單階段多場景組合優化模型;然后,根據武器裝備發展規劃周期,并基于所述單階段多場景組合優化模型,構建多階段多場景組合優化模型;所述單階段多場景組合優化模型和多階段多場景組合優化模型在如下假設條件下構建:
(1)當前待開發裝備項目清單是已知的,同時允許在未來任一階段增加新的裝備,以描述現實中裝備的更新交替;
(2)不同場景下每個裝備的效能未知,服從一定的分布;
(3)裝備之間沒有相互依存關系,即所有裝備可并行發展;
(4)一旦裝備項目被納入規劃,則不能從裝備清單中刪除直至完成;
所述單階段多場景組合優化模型以最大化裝備組合效能和最小化裝備組合成本為目標,目標函數為:
xi∈{0,1}
式中,k∈[1,K]表示一個場景,K代表場景的總數,B代表給定的經費預算,δ代表預算違背閾值,xi∈X代表當前裝備清單X中第i個裝備,ci代表裝備xi對應的開發成本,rik表示場景k下裝備項目xi的效能,i表示裝備序號;
所述多階段多場景組合優化模型以整個規劃周期內最大化裝備組合效能和最小化裝備組合成本為目標,目標函數為:
xit∈{0,1}
式中,表示階段t、場景k下裝備項目xi的效能,cit為裝備xi在階段t下的開發成本,xit為裝備xi在階段t下的選擇位,Bt為階段t下的經費預算,δt代表階段t下的預算違背閾值;
S3:構建優化求解算法
基于強化學習中的Q-Learning方法,搭建求解步驟S2中組合優化模型的優化求解算法;
S4:確定最終組合規劃方案
將輸入參數輸入到組合優化模型中,并采用步驟S3所構建的優化求解算法進行求解,得到最優組合規劃方案。
2.根據權利要求1所述的一種基于強化學習的多階段裝備組合規劃方法,其特征在于,所述步驟S3的優化求解算法,包括以下步驟:
S3.1:在每個階段,基于之前所有階段的裝備組合方案,生成該階段的待選裝備集合;
S3.2:針對K+1個目標的優化問題,采用非支配排序遺傳算法NSGA或多目標進化算法MOEA求解當前階段裝備發展的Pareto解集,其中K是場景數量;
S3.3:基于上個階段優化過程獲得的Pareto解集,采用探索或者利用模式選擇一個裝備組合方案,并更新當前階段下選擇該裝備組合方案的Q值;
S3.4:迭代上述步驟,直到達到停止標準。
3.根據權利要求2所述的一種基于強化學習的多階段裝備組合規劃方法,其特征在于,所述步驟S3.3中,具體選擇探索或者利用模式,由參數控制的隨機概率決定,所述探索模式,允許從Pareto解集中隨機選擇一個方案;所述利用模式,是求解Pareto解中的每一個裝備組合方案對應的Q值,選擇Q值最大的作為當前階段的裝備組合方案。
4.根據權利要求3所述的一種基于強化學習的多階段裝備組合規劃方法,其特征在于,所述步驟S3.3中,更新當前階段選擇該裝備組合方案的Q值,包括以下子步驟:
S3.3.1:構建回報函數,計算當前階段選擇不同裝備組合方案的回報值;
S3.3.2:根據步驟S3.3.1得到回報值,通過標準的Q-Learning公式對Q值進行更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911165682.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種硬幣自動分揀裝置
- 下一篇:一種LED路燈結構





