[發(fā)明專利]一種對(duì)多傳感器多目標(biāo)的智能決策方法及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110308094.9 | 申請(qǐng)日: | 2021-03-23 |
| 公開(kāi)(公告)號(hào): | CN112966641B | 公開(kāi)(公告)日: | 2023-06-20 |
| 發(fā)明(設(shè)計(jì))人: | 李博驍;張峰;高原;王詔豐;王子磊;楊尚彤 | 申請(qǐng)(專利權(quán))人: | 中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院 |
| 主分類號(hào): | G06V20/10 | 分類號(hào): | G06V20/10;G06V10/774;G06V10/80 |
| 代理公司: | 工業(yè)和信息化部電子專利中心 11010 | 代理人: | 于金平 |
| 地址: | 100041 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 傳感器 多目標(biāo) 智能 決策 方法 存儲(chǔ) 介質(zhì) | ||
1.一種對(duì)多傳感器多目標(biāo)的智能決策方法,其特征在于,包括:
基于目標(biāo)狀態(tài)、傳感器裝備狀態(tài)以及傳感器裝備對(duì)目標(biāo)的動(dòng)作進(jìn)行特征編碼得到各狀態(tài)的特征向量和動(dòng)作的特征向量,基于所述特征向量進(jìn)行訓(xùn)練得到智能體模型,其中,所述目標(biāo)為多個(gè);
在各種變化的目標(biāo)狀態(tài)下,通過(guò)所述智能體模型實(shí)時(shí)對(duì)多個(gè)目標(biāo)進(jìn)行動(dòng)態(tài)決策,以對(duì)多個(gè)目標(biāo)進(jìn)行實(shí)時(shí)跟蹤和識(shí)別;
所述基于目標(biāo)狀態(tài)、傳感器裝備狀態(tài)以及傳感器裝備對(duì)目標(biāo)的動(dòng)作進(jìn)行特征編碼得到各狀態(tài)的特征向量和動(dòng)作的特征向量,包括:將目標(biāo)狀態(tài)和所有傳感器裝備狀態(tài)進(jìn)行融合,通過(guò)狀態(tài)表達(dá)將所述目標(biāo)狀態(tài)和所述傳感器裝備狀態(tài)轉(zhuǎn)換為與決策直接相關(guān)的目標(biāo)狀態(tài)的特征向量、傳感器裝備狀態(tài)的特征向量和動(dòng)作的特征向量;其中,所述決策為所述目標(biāo)狀態(tài)與所述傳感器裝備狀態(tài)下傳感器裝備對(duì)目標(biāo)所執(zhí)行的動(dòng)作;
所述將目標(biāo)狀態(tài)和所有傳感器裝備狀態(tài)進(jìn)行融合,通過(guò)狀態(tài)表達(dá)將所述目標(biāo)狀態(tài)和所述傳感器裝備狀態(tài)轉(zhuǎn)換為與決策直接相關(guān)的目標(biāo)狀態(tài)的特征向量、傳感器裝備狀態(tài)的特征向量和動(dòng)作的特征向量,包括:
將所述目標(biāo)狀態(tài)和所有傳感器裝備狀態(tài)進(jìn)行融合,通過(guò)狀態(tài)表達(dá)將所述目標(biāo)和所述傳感器裝備狀態(tài)轉(zhuǎn)換為與決策直接相關(guān)的狀態(tài)和動(dòng)作的27維的特征向量:state=[x1,x2,...,x27],通過(guò)對(duì)每一個(gè)目標(biāo)根據(jù)各傳感器裝備對(duì)該目標(biāo)的可見(jiàn)性來(lái)設(shè)置對(duì)應(yīng)特征向量的維度值;
其中,第1維特征向量為目標(biāo)的優(yōu)先級(jí),第2-4維特征向量為目標(biāo)位置,第5-7維特征向量為目標(biāo)速度,第8-27特征向量為傳感器裝備對(duì)目標(biāo)的可見(jiàn)性和可用資源融合,第8-27特征向量的每一個(gè)維度代表一個(gè)固定的傳感器裝備;
所述通過(guò)對(duì)每一個(gè)目標(biāo)根據(jù)各傳感器裝備對(duì)該目標(biāo)的可見(jiàn)性來(lái)設(shè)置對(duì)應(yīng)特征向量的維度值,包括:
當(dāng)某一傳感器裝備無(wú)可用資源或者對(duì)目標(biāo)不可見(jiàn)時(shí),則設(shè)置對(duì)應(yīng)特征向量的維度值為0,并對(duì)可見(jiàn)目標(biāo)的特征向量的維度值設(shè)置為對(duì)應(yīng)傳感器狀態(tài)實(shí)際剩余可用資源量的值,以得出可見(jiàn)性和可用資源的融合后的特征向量值;
所述特征向量值為20維的特征向量值,該20維的特征向量值表示對(duì)某一個(gè)目標(biāo)的決策輸出為20維0/1向量action=[a1,a2,...,a20],每一個(gè)元素代表該位置的裝備是否對(duì)目標(biāo)進(jìn)行跟蹤或識(shí)別。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述特征向量進(jìn)行訓(xùn)練得到智能體模型,包括:
步驟一、將狀態(tài)的特征向量、動(dòng)作的特征向量、以及預(yù)設(shè)對(duì)動(dòng)作的獎(jiǎng)勵(lì)值輸入到Q網(wǎng)絡(luò)模型,通過(guò)最小化所述Q網(wǎng)絡(luò)模型的目標(biāo)函數(shù),并使用梯度下降法進(jìn)行所述Q網(wǎng)絡(luò)模型的參數(shù)更新,然后用所述Q網(wǎng)絡(luò)模型的輸出作為所述智能體模型的目標(biāo)函數(shù),更新所述智能體模型;
步驟二、不斷循環(huán)步驟一,直至所述Q網(wǎng)絡(luò)模型和智能體模型收斂,得到訓(xùn)練后的智能體模型。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法中還包括:target?Q網(wǎng)絡(luò)模型;
所述target?Q網(wǎng)絡(luò)模型的結(jié)構(gòu)與所述Q網(wǎng)絡(luò)模型的結(jié)構(gòu)相同,通過(guò)所述target?Q網(wǎng)絡(luò)模型更新所述Q網(wǎng)絡(luò)模型,并取所述target?Q網(wǎng)絡(luò)模型和所述Q網(wǎng)絡(luò)模型的最小值,以防止Q值誤差累加和過(guò)擬合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院,未經(jīng)中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110308094.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于實(shí)現(xiàn)多目標(biāo)方業(yè)務(wù)或操作的方法和裝置
- 基于智能視頻分析平臺(tái)的多目標(biāo)跟蹤方法及其系統(tǒng)
- 多目標(biāo)設(shè)計(jì)選擇方法和系統(tǒng)
- 一種針對(duì)多目標(biāo)的地面導(dǎo)航系統(tǒng)及其方法
- 一種無(wú)斷點(diǎn)多目標(biāo)信號(hào)合成方法
- 基于多智能體深度增強(qiáng)學(xué)習(xí)的多目標(biāo)跟蹤方法
- 一種多目標(biāo)跟蹤方法
- 一種航空紅外視頻多目標(biāo)檢測(cè)與跟蹤方法及裝置
- 一種多目標(biāo)推薦方法、多目標(biāo)推薦模型生成方法以及裝置
- 一種區(qū)域多目標(biāo)衛(wèi)星探測(cè)仿真方法及系統(tǒng)
- 決策協(xié)調(diào)方法、執(zhí)行裝置和決策協(xié)調(diào)器
- 一種基于循環(huán)更新模式的決策樹(shù)構(gòu)建方法
- 一種基于群決策的建筑項(xiàng)目決策系統(tǒng)及決策方法
- 一種基于反射弧的智慧大腦決策系統(tǒng)及決策方法
- 一種三維消防指揮決策輔助系統(tǒng)
- 一種決策方法、系統(tǒng)以及電子設(shè)備
- 基于決策引擎和模型平臺(tái)的業(yè)務(wù)決策邏輯更新方法
- 一種雙層優(yōu)先級(jí)決策系統(tǒng)
- 一種應(yīng)用程序的業(yè)務(wù)執(zhí)行方法、裝置及電子設(shè)備
- 基于區(qū)塊鏈的決策方法及裝置和電子設(shè)備





