[發明專利]基于混合采樣策略的多智能體在線動作決策方法在審
| 申請號: | 202111571020.0 | 申請日: | 2021-12-21 |
| 公開(公告)號: | CN114239827A | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 陸麗娜;張萬鵬;谷學強;馮志峰;羅俊仁;曾誠逸;袁唯淋 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06N5/00 | 分類號: | G06N5/00;G06F30/20 |
| 代理公司: | 長沙國科天河知識產權代理有限公司 43225 | 代理人: | 彭小蘭 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 混合 采樣 策略 智能 在線 動作 決策 方法 | ||
1.一種基于混合采樣策略的多智能體在線動作決策方法,其特征在于,所述方法包括:
針對多智能體對抗環境下的在線動作決策問題,獲取當前待決策的局面,并將該待決策局面建模成組合多臂賭博機問題;
從當前待決策的局面開始執行預設動作策略,根據獲得的回報以建模成參數未知的正態分布;
將所述未知參數(μ,τ)的聯合分布建模成Normal-Gamma分布,所述參數(μ,τ)的后驗分布也服從Normal-Gamma分布;
將所述參數(μ,τ)的聯合分布建模成服從超參數為μ0,λ0,α0,β0的Normal-Gamma分布,則參數(μ,τ)的后驗分布也服從Normal-Gamma分布;根據組合多臂賭博機問題和蒙特卡洛樹搜索(MCTS)原理構建一棵不對稱的搜索樹;
根據混合采樣策略中的ε貪婪策略以及當前節點狀態判斷在當前節點下是選擇節點探索還是節點利用;
如果選擇節點利用,針對當前節點下的所有子節點,利用混合采樣策略中的湯普森采樣方法,根據每個子節點維護的貝葉斯后驗分布對所有子節點的一組后驗參數(μ,τ)進行采樣,并根據當前節點類型,選擇具有最大或最小后驗參數值μ的子節點;
如果選擇節點探索,則根據樸素假設為每個智能體獨立選擇動作以生成聯合動作,如果由生成的聯合動作索引的節點不存在搜索樹上時,創建新的節點并初始化該節點的Normal-Gamma分布超參數;
根據返回的葉子節點,從該葉子節點出發進行蒙特卡洛仿真,根據仿真結果,通過回溯更新搜索路徑上所有節點的統計值以及分布超參數,用以將來的動作策決策,以返回當前局面下的可能最優動作。
2.如權利要求1所述的方法,其特征在于,所述針對多智能體對抗環境下的在線動作決策問題,獲取當前待決策的局面,并將該待決策局面建模成組合多臂賭博機問題的步驟,包括:
獲取當前待決策的局面,將當前局面下的決策問題建模成組合多臂賭博機問題,其中所述組合多臂賭博機問題用三元組來表示,X是一組變量的集合,X={X1,X2,...,Xn},Xi是一個變量,每個單元Xi具有Ki個不同的動作,是指X中所有變量的取值的可能組合,R是回報函數:它取決于每個變量的取值;
在智能體對抗環境下,X表示所有智能體的集合,是指針對X集合中的每一個智能體,在當前狀態下可執行的所有動作的集合。
3.如權利要求1所述的方法,其特征在于,所述從當前待決策的局面開始執行預設動作策略,根據獲得的回報以建模成參數未知的正態分布的步驟,包括:
從當前待決策的局面開始,執行預設動作策略,將獲得的回報Q建模成參數(μ,τ)未知的正態分布,Q~N(μ,1/τ),其中μ是正態分布的均值,τ為正態分布的精度,為方差的倒數,即τ=1/σ2。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111571020.0/1.html,轉載請聲明來源鉆瓜專利網。





