[發(fā)明專利]面向不完全信息博弈的集成策略學(xué)習(xí)方法、裝置和設(shè)備在審
| 申請?zhí)枺?/td> | 202210539137.9 | 申請日: | 2022-05-18 |
| 公開(公告)號: | CN114881194A | 公開(公告)日: | 2022-08-09 |
| 發(fā)明(設(shè)計)人: | 陳少飛;袁唯淋;胡振震;陸麗娜;李鵬;陳佳星;蘇炯銘;劉鴻福 | 申請(專利權(quán))人: | 中國人民解放軍國防科技大學(xué) |
| 主分類號: | G06N3/00 | 分類號: | G06N3/00;G06N3/04;G06N3/08;G06Q10/06 |
| 代理公司: | 長沙國科天河知識產(chǎn)權(quán)代理有限公司 43225 | 代理人: | 李楊 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 不完全 信息 博弈 集成 策略 學(xué)習(xí)方法 裝置 設(shè)備 | ||
本申請涉及一種面向不完全信息博弈的集成策略學(xué)習(xí)方法、裝置和設(shè)備。所述方法包括:通過集成策略學(xué)習(xí)模型中的梯度更新網(wǎng)絡(luò)從訓(xùn)練數(shù)據(jù)中的動作狀態(tài)數(shù)據(jù)提取對抗軌跡特征信息,基于注意力機制集成整合基礎(chǔ)決策模型輸出的基礎(chǔ)策略信息,進(jìn)一步集成得到預(yù)測策略信息,在完成梯度更新網(wǎng)絡(luò)的訓(xùn)練后,得到訓(xùn)練數(shù)據(jù)中每個智能體的第二集成策略信息,通過集成策略學(xué)習(xí)模型中的神經(jīng)演化模塊基于策略評估值通過交叉和變異進(jìn)行進(jìn)化,其中由于訓(xùn)練數(shù)據(jù)是小批量數(shù)據(jù),本方法通過評估并去除對抗得分值中的運氣因素值,在有限軌跡數(shù)據(jù)的基礎(chǔ)上實現(xiàn)了策略的準(zhǔn)確評估。通過策略評估值選取表現(xiàn)優(yōu)異的智能體,得到表現(xiàn)最優(yōu)的集成策略信息。
技術(shù)領(lǐng)域
本申請涉及人工智能領(lǐng)域,特別是涉及一種面向不完全信息博弈的集成策略學(xué)習(xí)方法、裝置和計算機設(shè)備。
背景技術(shù)
大規(guī)模不完全信息博弈是人工智能中的熱點研究領(lǐng)域,在城市安全、反恐維穩(wěn)、邊境緝毒以及野生動物保護等領(lǐng)域都具有廣泛應(yīng)用。不完全信息博弈是防御者和攻擊者相互對抗的形式化描述。以專家知識、博弈理論、強化學(xué)習(xí)等為典型代表的博弈求解范式,在求解不完全信息博弈時具有不同缺點。例如:博弈論中的納什均衡是一種在統(tǒng)計意義上的不敗策略,但并非最優(yōu)策略。強化學(xué)習(xí)可以在有限對局中取得較好的效果,但容易被利用。專家知識的方法在求解大規(guī)模的博弈問題時,具有很好的可解釋性和可靠性,但固化的知識容易被對手發(fā)現(xiàn)規(guī)律加以利用。
現(xiàn)有技術(shù)中,針對同一博弈問題,即使已構(gòu)建專家知識、博弈理論和強化學(xué)習(xí)等不同決策模型,但多種決策無法有效集成,更無法處理不完全信息。因此,現(xiàn)有策略集成技術(shù)存在適應(yīng)性不佳的問題。
發(fā)明內(nèi)容
基于此,有必要針對上述技術(shù)問題,提供一種能夠提高策略表現(xiàn)效果的面向不完全信息博弈的集成策略學(xué)習(xí)方法、裝置和計算機設(shè)備。
一種面向不完全信息博弈的集成策略學(xué)習(xí)方法,所述方法包括:
獲取對抗場景中博弈雙方的訓(xùn)練數(shù)據(jù);所述訓(xùn)練數(shù)據(jù)中包括對手池信息、多個迭代版本的智能體與所述對手池信息中不同對手對抗的動作狀態(tài)數(shù)據(jù)、推薦策略信息、基礎(chǔ)決策模型輸出的基礎(chǔ)策略信息;所述基礎(chǔ)決策模型為預(yù)先設(shè)計的,數(shù)量至少有兩個;所述對手池信息中對手的信息為不完全信息;
將所述訓(xùn)練數(shù)據(jù)輸入預(yù)先設(shè)計的集成策略學(xué)習(xí)模型中;所述集成策略學(xué)習(xí)模型包括梯度更新網(wǎng)絡(luò)和神經(jīng)演化模塊;所述梯度更新網(wǎng)絡(luò)包括長短時記憶網(wǎng)絡(luò)模塊,注意力機制模塊,全連接網(wǎng)絡(luò)模塊和輸出模塊;所述神經(jīng)演化模塊包括中心化評估模塊、基因編碼模塊和進(jìn)化操作模塊;
通過所述長短時記憶網(wǎng)絡(luò)模塊根據(jù)每個智能體的所述動作狀態(tài)數(shù)據(jù)提取對抗軌跡特征信息,通過所述注意力機制模塊對所述基礎(chǔ)策略信息進(jìn)行加權(quán)集成得到第一集成策略信息,通過所述全連接網(wǎng)絡(luò)根據(jù)所述對抗軌跡特征信息和所述第一集成策略進(jìn)行進(jìn)一步處理,并通過所述輸出模塊激活輸出,得到每個智能體的預(yù)測策略信息;
以所述推薦策略信息為標(biāo)簽信息,根據(jù)所述預(yù)測策略信息和所述標(biāo)簽信息對所述梯度更新網(wǎng)絡(luò)進(jìn)行有監(jiān)督訓(xùn)練,得到訓(xùn)練好的梯度更新網(wǎng)絡(luò),通過所述訓(xùn)練好的梯度更新網(wǎng)絡(luò)根據(jù)所述訓(xùn)練數(shù)據(jù)輸出所述訓(xùn)練數(shù)據(jù)的第二集成策略信息;
通過所述中心化評估模塊根據(jù)所述訓(xùn)練數(shù)據(jù)的第二集成策略信息將對應(yīng)的智能體與所述對手池信息中的每個對手分別對抗,評估并去除對抗得分值中的運氣因素值,再對所述第二集成策略進(jìn)行評估得到精確的策略評估值;
通過所述基因編碼模塊將所述訓(xùn)練數(shù)據(jù)的第二集成策略信息表示為參數(shù)待優(yōu)化的神經(jīng)網(wǎng)絡(luò);
通過所述進(jìn)化操作模塊將所有所述參數(shù)待優(yōu)化的神經(jīng)網(wǎng)絡(luò)的參數(shù)構(gòu)成種群,根據(jù)對應(yīng)的所述策略評估值將所述種群分為精英層和存活層,通過交叉操作算子和變異操作算子進(jìn)行多代種群演化,以對所述參數(shù)待優(yōu)化的神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化;其中,所述精英層中的個體對變異免疫,所述存活層中的個體必須經(jīng)過變異才能進(jìn)入下一代;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科技大學(xué),未經(jīng)中國人民解放軍國防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210539137.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 博弈數(shù)據(jù)分析方法及裝置
- 一種在即時通訊工具中實現(xiàn)博弈活動的方法
- 面向多智能體同步博弈的建模方法及動作預(yù)測系統(tǒng)
- 一種多主體博弈的增量配電網(wǎng)源網(wǎng)荷協(xié)同規(guī)劃方法
- 一種基于三方演化博弈的配電網(wǎng)決策方法、裝置和設(shè)備
- 對抗環(huán)境下多無人機協(xié)同目標(biāo)分配方法及系統(tǒng)
- 目標(biāo)均衡博弈的處理方法和裝置
- 一種業(yè)務(wù)執(zhí)行方法、裝置及其相關(guān)設(shè)備
- 用于云原生應(yīng)用資源調(diào)度的博弈優(yōu)化方法及其系統(tǒng)
- 一種機器博弈輔助決策方法及系統(tǒng)





