[發(fā)明專利]一種基于對(duì)手模型和迭代推理的策略識(shí)別與重用方法在審

申請(qǐng)?zhí)枺?/td>	202110323731.X	申請(qǐng)日：	2021-03-26
公開（公告）號(hào)：	CN112884152A	公開（公告）日：	2021-06-01
發(fā)明（設(shè)計(jì)）人：	黃健;陳浩;韓潤海;劉權(quán);龔建興;李嘉祥;鄧漢強(qiáng)	申請(qǐng)（專利權(quán)）人：	中國人民解放軍國防科技大學(xué)
主分類號(hào)：	G06N5/04	分類號(hào)：	G06N5/04
代理公司：	北京風(fēng)雅頌專利代理有限公司 11403	代理人：	曾志鵬
地址：	410003 湖***	國省代碼：	湖南;43
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于對(duì)手模型推理策略識(shí)別重用方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供了一種基于對(duì)手模型和迭代推理的策略識(shí)別與重用方法，包括離線學(xué)習(xí)階段和在線重用階段，離線學(xué)習(xí)階段通過強(qiáng)化學(xué)習(xí)算法得到對(duì)手當(dāng)前策略的應(yīng)對(duì)策略并用于構(gòu)建策略庫，獲取對(duì)手當(dāng)前行為數(shù)據(jù)構(gòu)建對(duì)手模型，依托對(duì)手模型構(gòu)建基于效用值的性能模型；在線重用階段獲取效用值和對(duì)手行為信息，通過迭代推理估計(jì)對(duì)手策略，調(diào)用策略庫中的應(yīng)對(duì)策略進(jìn)行重用。本發(fā)明引入了回合內(nèi)信念用于實(shí)時(shí)修正貝葉斯迭代推理的結(jié)果，結(jié)合對(duì)手模型可以在回合內(nèi)識(shí)別對(duì)手策略是否改變，并及時(shí)采用最優(yōu)應(yīng)對(duì)策略；回合內(nèi)信念的更新僅需要觀測(cè)對(duì)手行為而不依賴效用值函數(shù)；本發(fā)明可以識(shí)別回合內(nèi)切換策略、回合間隨機(jī)切換策略且具有推理能力的對(duì)手，并重用最優(yōu)應(yīng)對(duì)策略。

技術(shù)領(lǐng)域

本發(fā)明涉及多智能體對(duì)抗領(lǐng)域，具體公開了一種基于對(duì)手模型和迭代推理的策略識(shí)別與重用方法。

背景技術(shù)

多智能體系統(tǒng)中，智能體不僅與環(huán)境交互，其他參與者的行為也影響智能體的動(dòng)作選擇。特別是面對(duì)使用非穩(wěn)定策略的參與者時(shí)，策略選擇過程更為困難，因?yàn)榇藭r(shí)其他參與者也根據(jù)智能體的行為調(diào)整策略。本發(fā)明將環(huán)境中合作型參與者和對(duì)抗型參與者統(tǒng)稱為對(duì)手。一般情況下，對(duì)手維護(hù)了一個(gè)策略庫，并通過策略切換優(yōu)化其性能。在這種情況下，智能體需要在離線階段學(xué)習(xí)對(duì)手使用固定策略時(shí)的最優(yōu)應(yīng)對(duì)策略，并在在線重用階段準(zhǔn)確檢測(cè)對(duì)手策略是否發(fā)生改變，并重用對(duì)應(yīng)的最優(yōu)應(yīng)對(duì)策略。

對(duì)手的策略切換類型可以分為回合間切換和回合內(nèi)切換，根據(jù)其切換方式的復(fù)雜程度，又可以分為隨機(jī)切換和具有推理能力地切換。具體來說，回合間切換就是在本回合結(jié)束、下回合開始前切換策略；回合內(nèi)切換是指在當(dāng)回合內(nèi)的某時(shí)刻切換策略。隨機(jī)切換是指對(duì)手隨機(jī)從策略庫中選擇可用策略；具有推理能力地切換是指對(duì)手根據(jù)智能體的行為和環(huán)境反饋，從策略庫中選擇對(duì)自身有利的策略執(zhí)行。現(xiàn)有的方法僅單方面關(guān)注回合間切換策略、隨機(jī)切換策略或具有推理能力切換策略的對(duì)手，而不能同時(shí)應(yīng)對(duì)上述所有切換類型。

發(fā)明內(nèi)容

本發(fā)明目的在提供一種基于對(duì)手模型和迭代推理的策略識(shí)別與重用方法，以解決現(xiàn)有技術(shù)中存在不能同時(shí)應(yīng)對(duì)多種切換類型的技術(shù)缺陷。

為實(shí)現(xiàn)上述目的，本發(fā)明提供了一種基于對(duì)手模型和迭代推理的策略識(shí)別與重用方法，包括離線學(xué)習(xí)階段和在線重用階段，離線學(xué)習(xí)階段通過強(qiáng)化學(xué)習(xí)算法得到對(duì)手當(dāng)前策略的應(yīng)對(duì)策略并用于構(gòu)建策略庫，獲取對(duì)手當(dāng)前行為數(shù)據(jù)構(gòu)建對(duì)手模型，依托對(duì)手模型構(gòu)建基于效用值的性能模型；在線重用階段獲取效用值和對(duì)手行為信息，通過迭代推理估計(jì)對(duì)手策略，調(diào)用策略庫中的應(yīng)對(duì)策略進(jìn)行重用。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科技大學(xué)，未經(jīng)中國人民解放軍國防科技大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110323731.X/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06N 基于特定計(jì)算模型的計(jì)算機(jī)系統(tǒng)
G06N5-00 利用基于知識(shí)的模式的計(jì)算機(jī)系統(tǒng)
G06N5-02 .知識(shí)表達(dá)
G06N5-04 .推理方法或設(shè)備

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

滑坡模型實(shí)驗(yàn)?zāi)Ｐ图?/a>

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】