[發(fā)明專利]基于強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)動(dòng)作決策方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202010568786.2 | 申請(qǐng)日: | 2020-06-19 |
| 公開(kāi)(公告)號(hào): | CN111708355B | 公開(kāi)(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計(jì))人: | 王克亮;高顯忠;侯中喜;郭正;賈高偉 | 申請(qǐng)(專利權(quán))人: | 中國(guó)人民解放軍國(guó)防科技大學(xué) |
| 主分類號(hào): | G05D1/00 | 分類號(hào): | G05D1/00;G06F18/20;G06F18/214 |
| 代理公司: | 長(zhǎng)沙國(guó)科天河知識(shí)產(chǎn)權(quán)代理有限公司 43225 | 代理人: | 邱軼 |
| 地址: | 410073 湖*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 強(qiáng)化 學(xué)習(xí) 無(wú)人機(jī) 動(dòng)作 決策 方法 裝置 | ||
1.一種基于強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)動(dòng)作決策方法,所述方法包括:
構(gòu)建多無(wú)人機(jī)的強(qiáng)化學(xué)習(xí)模型;所述強(qiáng)化學(xué)習(xí)模型包括:狀態(tài)價(jià)值網(wǎng)絡(luò)和各個(gè)無(wú)人機(jī)對(duì)應(yīng)的策略網(wǎng)絡(luò);所述狀態(tài)價(jià)值網(wǎng)絡(luò)用于接收所有無(wú)人機(jī)狀態(tài)信息并輸出狀態(tài)信息估計(jì)值;所述策略網(wǎng)絡(luò)用于接收對(duì)應(yīng)所述狀態(tài)信息并輸出決策結(jié)果;
獲取訓(xùn)練樣本,將所述訓(xùn)練樣本作為所述狀態(tài)信息輸入所述策略網(wǎng)絡(luò),得到所述訓(xùn)練樣本對(duì)應(yīng)的動(dòng)作,以及獲取所述策略網(wǎng)絡(luò)執(zhí)行動(dòng)作得到的獎(jiǎng)勵(lì)值,將所述訓(xùn)練樣本作為所述狀態(tài)信息和所述動(dòng)作輸入所述狀態(tài)價(jià)值網(wǎng)絡(luò),得到所述訓(xùn)練樣本對(duì)應(yīng)的動(dòng)作函數(shù)值;
將所述訓(xùn)練樣本、動(dòng)作、獎(jiǎng)勵(lì)值以及下一個(gè)狀態(tài)信息保存為一條記錄,并存儲(chǔ)至緩存區(qū)中;
從所述緩存區(qū)中提取多條所述記錄,計(jì)算所述記錄對(duì)應(yīng)累計(jì)獎(jiǎng)勵(lì)值,根據(jù)所述累計(jì)獎(jiǎng)勵(lì)值和所述訓(xùn)練樣本對(duì)應(yīng)的實(shí)際動(dòng)作函數(shù)值構(gòu)建平均最小損失函數(shù);
根據(jù)所述平均最小損失函數(shù)更新所述狀態(tài)價(jià)值網(wǎng)絡(luò),根據(jù)所述記錄對(duì)應(yīng)動(dòng)作的梯度,更新各個(gè)無(wú)人機(jī)對(duì)應(yīng)的所述策略網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);
根據(jù)各個(gè)無(wú)人機(jī)所述策略網(wǎng)絡(luò),進(jìn)行對(duì)應(yīng)的動(dòng)作決策;
從所述緩存區(qū)中提取多條所述記錄,計(jì)算所述記錄對(duì)應(yīng)累計(jì)獎(jiǎng)勵(lì)值為:
其中,yj表示累計(jì)獎(jiǎng)勵(lì)值,表示第i個(gè)無(wú)人機(jī)對(duì)應(yīng)策略網(wǎng)絡(luò)輸出動(dòng)作的獎(jiǎng)勵(lì)值,γ表示折扣因子,表示所述動(dòng)作函數(shù)值;
根據(jù)所述累計(jì)獎(jiǎng)勵(lì)值和所述訓(xùn)練樣本對(duì)應(yīng)的實(shí)際動(dòng)作函數(shù)值構(gòu)建平均最小損失函數(shù)為:
其中,S表示記錄的數(shù)量,表示實(shí)際動(dòng)作函數(shù)值;
獲取所述梯度公式為:
其中,表示策略網(wǎng)絡(luò)的參數(shù)對(duì)應(yīng)的梯度,表示對(duì)應(yīng)的所述動(dòng)作,表示所述動(dòng)作對(duì)應(yīng)的實(shí)際動(dòng)作函數(shù)值;
根據(jù)所述記錄對(duì)應(yīng)動(dòng)作的梯度,更新各個(gè)無(wú)人機(jī)對(duì)應(yīng)的所述策略網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)為:
θ′i←εθi+(1-ε)θ′i
其中,θi表示第i個(gè)無(wú)人機(jī)對(duì)應(yīng)策略網(wǎng)絡(luò)的參數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述記錄對(duì)應(yīng)動(dòng)作的梯度,更新各個(gè)無(wú)人機(jī)對(duì)應(yīng)的所述策略網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),包括:
根據(jù)所述記錄對(duì)應(yīng)動(dòng)作的梯度,采用多線程并行方式更新各個(gè)無(wú)人機(jī)對(duì)應(yīng)的所述策略網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。
3.根據(jù)權(quán)利要求1至2任一項(xiàng)所述的方法,其特征在于,所述策略網(wǎng)絡(luò)均為卷積神經(jīng)網(wǎng)絡(luò),所述訓(xùn)練樣本為圖片數(shù)據(jù)。
4.根據(jù)權(quán)利要求1至2任一項(xiàng)所述的方法,其特征在于,所述獲取訓(xùn)練樣本,將所述訓(xùn)練樣本作為所述狀態(tài)信息輸入所述策略網(wǎng)絡(luò),包括:
獲取訓(xùn)練樣本和從環(huán)境特征中提取的環(huán)境參數(shù),將所述訓(xùn)練樣本和所述環(huán)境特征作為狀態(tài)信息輸入所述策略網(wǎng)絡(luò)。
5.根據(jù)權(quán)利要求1至2任一項(xiàng)所述的方法,其特征在于,所述方法還包括:
將執(zhí)行不同飛行任務(wù)的無(wú)人機(jī)劃分為不同的任務(wù)網(wǎng)絡(luò);所述任務(wù)網(wǎng)絡(luò)由無(wú)人機(jī)對(duì)應(yīng)的強(qiáng)化學(xué)習(xí)模型構(gòu)成;
將所述不同的任務(wù)網(wǎng)絡(luò)在同一環(huán)境以及訓(xùn)練樣本中進(jìn)行訓(xùn)練,得到訓(xùn)練后的智能網(wǎng)絡(luò);
將所述智能網(wǎng)絡(luò)存入預(yù)先設(shè)置的子任務(wù)基元庫(kù),通過(guò)采樣的方式從所述子任務(wù)基元庫(kù)中提取智能網(wǎng)絡(luò),選擇與替換當(dāng)前所述任務(wù)網(wǎng)絡(luò)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科技大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010568786.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種礦用高效泡沫降塵裝置
- 下一篇:一種廢舊電線整理收集裝置及方法
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 無(wú)人機(jī)監(jiān)控方法、系統(tǒng)以及無(wú)人機(jī)和地面站
- 無(wú)人機(jī)拍攝方法及裝置、無(wú)人機(jī)和地面控制裝置
- 一種獨(dú)立式無(wú)人機(jī)飛行安全監(jiān)測(cè)與信息管理系統(tǒng)
- 一種確定無(wú)人機(jī)飛行路徑的方法及裝置
- 一種執(zhí)行任務(wù)時(shí)無(wú)人機(jī)群數(shù)據(jù)鏈真實(shí)性檢測(cè)方法
- 連發(fā)無(wú)人機(jī)電磁彈射系統(tǒng)及無(wú)人機(jī)機(jī)庫(kù)
- 用于無(wú)人機(jī)超視距管控的系統(tǒng)及其工作方法
- 連發(fā)無(wú)人機(jī)電磁彈射系統(tǒng)及無(wú)人機(jī)機(jī)庫(kù)
- 一種無(wú)人機(jī)遙感組網(wǎng)冗余容錯(cuò)控制方法
- 無(wú)人機(jī)的控制方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及無(wú)人機(jī)





