[發(fā)明專(zhuān)利]基于強(qiáng)化學(xué)習(xí)的多彈協(xié)同攻擊制導(dǎo)律設(shè)計(jì)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110007293.6 | 申請(qǐng)日: | 2021-01-05 |
| 公開(kāi)(公告)號(hào): | CN112799429B | 公開(kāi)(公告)日: | 2022-03-29 |
| 發(fā)明(設(shè)計(jì))人: | 陳萬(wàn)春;陳中原;岳新成 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京航空航天大學(xué) |
| 主分類(lèi)號(hào): | G05D1/10 | 分類(lèi)號(hào): | G05D1/10;G06F30/27 |
| 代理公司: | 北京慧泉知識(shí)產(chǎn)權(quán)代理有限公司 11232 | 代理人: | 李娜;王順榮 |
| 地址: | 100191*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 強(qiáng)化 學(xué)習(xí) 協(xié)同 攻擊 制導(dǎo) 設(shè)計(jì) 方法 | ||
1.一種基于強(qiáng)化學(xué)習(xí)的多彈協(xié)同攻擊制導(dǎo)律設(shè)計(jì)方法,其特征在于,包括如下步驟:
步驟1,構(gòu)造狀態(tài)空間S=[r1…ri…rnξ1…ξi…ξn]T;
其中,n為導(dǎo)彈數(shù)量,ri為第i枚導(dǎo)彈和目標(biāo)的相對(duì)距離,第i枚導(dǎo)彈估計(jì)剩余飛行時(shí)間的誤差第i枚導(dǎo)彈獲取第j枚導(dǎo)彈的信息時(shí)aij=1,第i枚導(dǎo)彈無(wú)法獲取第j枚導(dǎo)彈的信息時(shí)aij=0,為第i枚導(dǎo)彈的剩余飛行時(shí)間,為第j枚導(dǎo)彈的剩余飛行時(shí)間,為非線性函數(shù);
步驟2,設(shè)計(jì)協(xié)同制導(dǎo)律并構(gòu)造動(dòng)作空間;
協(xié)同制導(dǎo)律結(jié)構(gòu)為其中,aMi為第i枚導(dǎo)彈的加速度,為第i枚導(dǎo)彈的傳統(tǒng)的比例導(dǎo)引律,為第i枚導(dǎo)彈的協(xié)同控制項(xiàng);動(dòng)作空間為制導(dǎo)律中的動(dòng)作
步驟3,構(gòu)造獎(jiǎng)勵(lì)函數(shù)
其中,ri(0)為第i枚導(dǎo)彈和目標(biāo)的初始相對(duì)距離,X1取值范圍為0.1至0.5,X2取值范圍為8至12,X3取值范圍為0.8至1.2,X4取值范圍為8至12,X5取值范圍為8至12,X6取值范圍為0.01至0.03;
步驟4,用隨機(jī)參數(shù)θQ初始化Critic網(wǎng)絡(luò)Q(S,A),用隨機(jī)參數(shù)θQ′初始化目標(biāo)Critic網(wǎng)絡(luò)Q′(S,A),用隨機(jī)參數(shù)θμ初始化Actor網(wǎng)絡(luò)μ(S),用隨機(jī)參數(shù)θμ′初始化目標(biāo)Actor網(wǎng)絡(luò)μ′(S′);本步驟的θQ,θμ,θQ′,θμ′均為隨機(jī)參數(shù),無(wú)具體含義;
步驟5,對(duì)于訓(xùn)練中的每個(gè)步長(zhǎng),采用強(qiáng)化學(xué)習(xí)算法更新Critic網(wǎng)絡(luò)Q(S,A)、Actor網(wǎng)絡(luò)μ(S)、目標(biāo)Critic網(wǎng)絡(luò)Q′(S,A)和目標(biāo)Actor網(wǎng)絡(luò)μ′(S′),直到滿足終止條件。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110007293.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 移動(dòng)通信終端的協(xié)同方法及其界面系統(tǒng)
- 業(yè)務(wù)協(xié)同流程配置、業(yè)務(wù)協(xié)同方法及裝置
- 一種基于健康檔案共享平臺(tái)的跨醫(yī)院協(xié)同檢查信息系統(tǒng)
- 一種協(xié)同控制方法、協(xié)同控制系統(tǒng)及變頻器
- 基于協(xié)同網(wǎng)關(guān)的跨域協(xié)同交互方法
- 一種生產(chǎn)協(xié)同管理方法及系統(tǒng)
- 云邊協(xié)同方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種智能辦公協(xié)同操作方法及系統(tǒng)
- 一種用于無(wú)人裝備的時(shí)間協(xié)同航跡規(guī)劃方法
- 基于大數(shù)據(jù)的智慧辦公協(xié)同方法及系統(tǒng)





