[發明專利]一種基于對手模型和迭代推理的策略識別與重用方法在審
| 申請號: | 202110323731.X | 申請日: | 2021-03-26 |
| 公開(公告)號: | CN112884152A | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 黃健;陳浩;韓潤海;劉權;龔建興;李嘉祥;鄧漢強 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06N5/04 | 分類號: | G06N5/04 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 曾志鵬 |
| 地址: | 410003 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 對手 模型 推理 策略 識別 重用 方法 | ||
1.一種基于對手模型和迭代推理的策略識別與重用方法,其特征在于,包括離線學習階段和在線重用階段,所述離線學習階段通過強化學習算法得到對手當前策略的應對策略并用于構建策略庫,獲取對手當前行為數據構建對手模型,依托對手模型構建基于效用值的性能模型;所述在線重用階段獲取效用值和對手行為信息,通過迭代推理估計對手策略,調用所述策略庫中的應對策略進行重用。
2.根據權利要求1所述的一種基于對手模型和迭代推理的策略識別與重用方法,其特征在于,在所述在線階段根據對手當前行為數據獲取回合內信念,根據回合內信念修正回合間信念,迭代推理估計對手的當前策略,調用所述策略庫中的應對策略進行重用。
3.根據權利要求1所述的一種基于對手模型和迭代推理的策略識別與重用方法,其特征在于,所述學習算法為PPO學習算法,其中Actor的損失函數和Critic的損失函數分別為:
其中,CLIP為值域為[1-ε,1+ε]的截斷函數,∈∈(0,1),rt(θ)表示新舊策略的概率比,表示t時刻相對優勢函數的估計,θ為Actor的參數,θv為Critic的參數,表示智能體在狀態st的價值函數,γ∈(0,1)為折扣因子。
4.根據權利要求3所述的一種基于對手模型和迭代推理的策略識別與重用方法,其特征在于,新舊策略的概率比為:
其中,為上一更新時刻的策略,πθ(at|st)為當前策略。
5.根據權利要求3所述的一種基于對手模型和迭代推理的策略識別與重用方法,其特征在于,相對優勢函數的估計為:
其中,表示t時刻相對優勢函數的估計,rt'為從環境中獲得的獎勵。
6.根據權利要求1所述的一種基于對手模型和迭代推理的策略識別與重用方法,其特征在于,對手模型的損失函數可以表示為:
其中,為對手在狀態si下執行動作oi的估計概率,ηe∈[0,1]為信息熵常數,在每回合結束時通過最小化損失函數更新對手模型的參數φ。
7.根據權利要求2所述的一種基于對手模型和迭代推理的策略識別與重用方法,其特征在于,根據效用值和對手行為信息通過迭代推理估計對手策略的方式包括以下步驟:
離線學習階段,獲取回合內累積效用值并將其擬合為正態分布,構建性能模型;
在線重用階段,根據性能模型和累積效用值更新回合間信念;
根據對手行為信息和對手模型更新回合內信念;
結合回合內信念和回合間信念選擇最優應對策略。
8.根據權利要求7所述的一種基于對手模型和迭代推理的策略識別與重用方法,其特征在于,智能體選擇應對策略的方式可以表示為:
其中,為在回合間信念β(τ)下能夠獲得的最優期望效用。
9.根據權利要求8所述的一種基于對手模型和迭代推理的策略識別與重用方法,其特征在于,回合內信念的更新方式可以表示為:
其中,為τ的對手模型,k為當下回合的步數,定量描述了對手用策略τ生成的可能性,在每回合結束時,用最新的回合內信念ξ(τ)為回合間信念β(τ)賦值。
10.根據權利要求8所述的一種基于對手模型和迭代推理的策略識別與重用方法,其特征在于,根據即時信念實時調用所述策略庫中的應對策略進行重用,即時信念為:ζ(τ)=ρkβ(τ)+(1-ρk)ξ(τ)
其中,ρ∈(0,1)為常數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110323731.X/1.html,轉載請聲明來源鉆瓜專利網。





