[發(fā)明專利]對手策略反演方法、系統(tǒng)、裝置有效
| 申請?zhí)枺?/td> | 202011586486.3 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112529110B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計)人: | 范國梁 | 申請(專利權(quán))人: | 中國科學院自動化研究所 |
| 主分類號: | G06F18/2321 | 分類號: | G06F18/2321;G06N3/047;G06N3/08;G06Q10/04 |
| 代理公司: | 北京市恒有知識產(chǎn)權(quán)代理事務所(普通合伙) 11576 | 代理人: | 郭文浩;尹文會 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 對手 策略 反演 方法 系統(tǒng) 裝置 | ||
本發(fā)明屬于決策推演領(lǐng)域,具體涉及一種對手策略反演方法、系統(tǒng)、裝置,旨在解決現(xiàn)有的策略反演方法無法有效的估計對手的意圖以及自適應性較差的問題。本方法包括實時獲取在可見范圍內(nèi)對抗方各智能體的狀態(tài)信息,作為輸入信息;基于輸入信息,結(jié)合預獲取的第一概率,通過深度置信網(wǎng)絡(luò)模型獲取所述對抗方各智能體前進路線對應的后驗預測概率;對所述對抗方各智能體,根據(jù)其速度,結(jié)合后驗預測概率最大的前進路線,計算其對應的預測機動位置;第一概率為對抗方各智能體的時空運動軌跡經(jīng)過關(guān)鍵地點的先驗概率。本發(fā)明可有效的估計對手的意圖,提升了智能體博弈對抗的能力以及自適應性。
技術(shù)領(lǐng)域
本發(fā)明屬于決策推演領(lǐng)域,具體涉及一種對手策略反演方法、系統(tǒng)、裝置。
背景技術(shù)
多智能體博弈具有實時對抗、群體協(xié)作、非完全信息博弈、龐大的搜索空間、多復雜任務和時間空間推理等特點,是當前人工智能領(lǐng)域極具挑戰(zhàn)的難題。同時該領(lǐng)域研究成果在社會管理、智能交通、經(jīng)濟、軍事等領(lǐng)域有廣闊的應用前景。博弈中態(tài)勢評估是首要關(guān)節(jié)。目前態(tài)勢評估的模型有很多種,但最常用的應屬Endsley三層態(tài)勢評估模型。Endsley認為態(tài)勢評估是決策者在一定的時間和空間內(nèi),對周圍環(huán)境中要素含義的理解,以及對它們未來狀態(tài)的改變進行預測,是決策者的理解過程。于是,他從人的認知角度,根據(jù)人的思維過程,把態(tài)勢評估分為態(tài)勢感知、態(tài)勢理解和態(tài)勢預測三個層面。1)態(tài)勢感知,即指揮員通過多渠道對戰(zhàn)場環(huán)境信息進行獲取,如戰(zhàn)場環(huán)境、兵力部署、作戰(zhàn)企圖/作戰(zhàn)目標等。2)態(tài)勢理解,即對所感知的信息因素結(jié)合戰(zhàn)場環(huán)境給予深層次認識和理解。3)態(tài)勢預測,即根據(jù)態(tài)勢感知和理解的結(jié)果,采取相應行動后,對未來事件發(fā)展變化的一種預測。
在態(tài)勢評估中難度最大的是態(tài)勢預測,需要對未來行為估計和探索,特別是在博弈對抗過程,需要對對手策略和意圖進行估計反演,這成為博弈對抗成功的關(guān)鍵所在。而現(xiàn)有的策略反演方法卻無法有效的估計對手的意圖。
另外,分布式多智能體對抗是為了實現(xiàn)單一目標而從預先定義的分布式系統(tǒng)協(xié)議遷移而來的。經(jīng)典設(shè)計有一個規(guī)定的目標,然后使用自頂向下的設(shè)計方法來分散操作。例如,整個戰(zhàn)場的操作者首先在全局范圍內(nèi)為代理設(shè)計最優(yōu)策略,然后根據(jù)代理的局部信息通知每個代理如何行動。然而,當一個代理離開修改系統(tǒng)的戰(zhàn)場時,先前設(shè)計的策略不再是全局最優(yōu)的。因此,在自上而下的設(shè)計中,一件作品的丟失將失去整個效果。在這種方法中,代理被編程成離線的設(shè)計方式,從而失去自適應性。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中的上述問題,即為了解決的現(xiàn)有的策略反演方法無法有效的估計對手的意圖以及自適應性較差的問題,本發(fā)明第一方面,提出了一種對手策略反演方法,該方法包括:
步驟S10,實時獲取在可見范圍內(nèi)對抗方各智能體的狀態(tài)信息,作為輸入信息;所述狀態(tài)信息包括ID、時空運動軌跡、機動狀態(tài)、速度;
步驟S20,基于所述輸入信息,結(jié)合預獲取的第一概率,通過深度置信網(wǎng)絡(luò)模型獲取所述對抗方各智能體前進路線對應的后驗預測概率;
步驟S30,對所述對抗方各智能體,根據(jù)其速度,結(jié)合后驗預測概率最大的前進路線,計算其對應的預測機動位置;
其中,所述第一概率為對抗方各智能體的時空運動軌跡經(jīng)過關(guān)鍵地點的先驗概率。
在一些優(yōu)選的實施方式中,所述第一概率,其獲取方法為:
步驟A10,采集對抗方各智能體的歷史狀態(tài)信息;
步驟A20,通過預設(shè)的密度聚類算法按時序?qū)λ鰵v史狀態(tài)信息進行軌跡聚類;聚類后,將軌跡點的數(shù)量大于設(shè)定數(shù)量閾值的類對應的軌跡點作為關(guān)鍵地點;
步驟A30,計算對抗方各智能體的歷史時空運動軌跡經(jīng)過關(guān)鍵地點的先驗概率,作為第一概率。
在一些優(yōu)選的實施方式中,步驟A20中“通過預設(shè)的密度聚類算法按時序?qū)λ鰵v史狀態(tài)信息進行軌跡聚類”,其方法為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院自動化研究所,未經(jīng)中國科學院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011586486.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種綢布字牌及其制備方法
- 下一篇:一種ppt文檔的對比方法
- 一種計算機網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應用于合法監(jiān)聽系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計算機可讀存儲介質(zhì)





