[發(fā)明專利]一種基于對(duì)手模型和迭代推理的策略識(shí)別與重用方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110323731.X | 申請(qǐng)日: | 2021-03-26 |
| 公開(公告)號(hào): | CN112884152A | 公開(公告)日: | 2021-06-01 |
| 發(fā)明(設(shè)計(jì))人: | 黃健;陳浩;韓潤海;劉權(quán);龔建興;李嘉祥;鄧漢強(qiáng) | 申請(qǐng)(專利權(quán))人: | 中國人民解放軍國防科技大學(xué) |
| 主分類號(hào): | G06N5/04 | 分類號(hào): | G06N5/04 |
| 代理公司: | 北京風(fēng)雅頌專利代理有限公司 11403 | 代理人: | 曾志鵬 |
| 地址: | 410003 湖*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 對(duì)手 模型 推理 策略 識(shí)別 重用 方法 | ||
本發(fā)明提供了一種基于對(duì)手模型和迭代推理的策略識(shí)別與重用方法,包括離線學(xué)習(xí)階段和在線重用階段,離線學(xué)習(xí)階段通過強(qiáng)化學(xué)習(xí)算法得到對(duì)手當(dāng)前策略的應(yīng)對(duì)策略并用于構(gòu)建策略庫,獲取對(duì)手當(dāng)前行為數(shù)據(jù)構(gòu)建對(duì)手模型,依托對(duì)手模型構(gòu)建基于效用值的性能模型;在線重用階段獲取效用值和對(duì)手行為信息,通過迭代推理估計(jì)對(duì)手策略,調(diào)用策略庫中的應(yīng)對(duì)策略進(jìn)行重用。本發(fā)明引入了回合內(nèi)信念用于實(shí)時(shí)修正貝葉斯迭代推理的結(jié)果,結(jié)合對(duì)手模型可以在回合內(nèi)識(shí)別對(duì)手策略是否改變,并及時(shí)采用最優(yōu)應(yīng)對(duì)策略;回合內(nèi)信念的更新僅需要觀測(cè)對(duì)手行為而不依賴效用值函數(shù);本發(fā)明可以識(shí)別回合內(nèi)切換策略、回合間隨機(jī)切換策略且具有推理能力的對(duì)手,并重用最優(yōu)應(yīng)對(duì)策略。
技術(shù)領(lǐng)域
本發(fā)明涉及多智能體對(duì)抗領(lǐng)域,具體公開了一種基于對(duì)手模型和迭代推理的策略識(shí)別與重用方法。
背景技術(shù)
多智能體系統(tǒng)中,智能體不僅與環(huán)境交互,其他參與者的行為也影響智能體的動(dòng)作選擇。特別是面對(duì)使用非穩(wěn)定策略的參與者時(shí),策略選擇過程更為困難,因?yàn)榇藭r(shí)其他參與者也根據(jù)智能體的行為調(diào)整策略。本發(fā)明將環(huán)境中合作型參與者和對(duì)抗型參與者統(tǒng)稱為對(duì)手。一般情況下,對(duì)手維護(hù)了一個(gè)策略庫,并通過策略切換優(yōu)化其性能。在這種情況下,智能體需要在離線階段學(xué)習(xí)對(duì)手使用固定策略時(shí)的最優(yōu)應(yīng)對(duì)策略,并在在線重用階段準(zhǔn)確檢測(cè)對(duì)手策略是否發(fā)生改變,并重用對(duì)應(yīng)的最優(yōu)應(yīng)對(duì)策略。
對(duì)手的策略切換類型可以分為回合間切換和回合內(nèi)切換,根據(jù)其切換方式的復(fù)雜程度,又可以分為隨機(jī)切換和具有推理能力地切換。具體來說,回合間切換就是在本回合結(jié)束、下回合開始前切換策略;回合內(nèi)切換是指在當(dāng)回合內(nèi)的某時(shí)刻切換策略。隨機(jī)切換是指對(duì)手隨機(jī)從策略庫中選擇可用策略;具有推理能力地切換是指對(duì)手根據(jù)智能體的行為和環(huán)境反饋,從策略庫中選擇對(duì)自身有利的策略執(zhí)行。現(xiàn)有的方法僅單方面關(guān)注回合間切換策略、隨機(jī)切換策略或具有推理能力切換策略的對(duì)手,而不能同時(shí)應(yīng)對(duì)上述所有切換類型。
發(fā)明內(nèi)容
本發(fā)明目的在提供一種基于對(duì)手模型和迭代推理的策略識(shí)別與重用方法,以解決現(xiàn)有技術(shù)中存在不能同時(shí)應(yīng)對(duì)多種切換類型的技術(shù)缺陷。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于對(duì)手模型和迭代推理的策略識(shí)別與重用方法,包括離線學(xué)習(xí)階段和在線重用階段,離線學(xué)習(xí)階段通過強(qiáng)化學(xué)習(xí)算法得到對(duì)手當(dāng)前策略的應(yīng)對(duì)策略并用于構(gòu)建策略庫,獲取對(duì)手當(dāng)前行為數(shù)據(jù)構(gòu)建對(duì)手模型,依托對(duì)手模型構(gòu)建基于效用值的性能模型;在線重用階段獲取效用值和對(duì)手行為信息,通過迭代推理估計(jì)對(duì)手策略,調(diào)用策略庫中的應(yīng)對(duì)策略進(jìn)行重用。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科技大學(xué),未經(jīng)中國人民解放軍國防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110323731.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于語義搜索的推理方法
- 一種基于規(guī)則的分布式推理方法及系統(tǒng)
- 一種上下文分布式推理方法和裝置
- 數(shù)據(jù)推理方法、裝置及計(jì)算機(jī)設(shè)備
- 多重推理方式的專家分診系統(tǒng)及其方法
- 多推理模式融合的老年病推理診斷系統(tǒng)
- 推理系統(tǒng)、推理方法、電子設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種推理服務(wù)模型的運(yùn)行方法及裝置
- 一種評(píng)估指標(biāo)權(quán)重確定方法智能選擇的方法及系統(tǒng)
- AIStation推理平臺(tái)的推理服務(wù)管理方法和裝置





