[發(fā)明專利]面向不完全信息博弈的集成策略學(xué)習(xí)方法、裝置和設(shè)備在審

申請?zhí)枺?/td>	202210539137.9	申請日：	2022-05-18
公開（公告）號：	CN114881194A	公開（公告）日：	2022-08-09
發(fā)明（設(shè)計）人：	陳少飛;袁唯淋;胡振震;陸麗娜;李鵬;陳佳星;蘇炯銘;劉鴻福	申請（專利權(quán)）人：	中國人民解放軍國防科技大學(xué)
主分類號：	G06N3/00	分類號：	G06N3/00;G06N3/04;G06N3/08;G06Q10/06
代理公司：	長沙國科天河知識產(chǎn)權(quán)代理有限公司 43225	代理人：	李楊
地址：	410073 湖***	國省代碼：	湖南;43
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	面向不完全信息博弈集成策略學(xué)習(xí)方法裝置設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請涉及一種面向不完全信息博弈的集成策略學(xué)習(xí)方法、裝置和設(shè)備。所述方法包括：通過集成策略學(xué)習(xí)模型中的梯度更新網(wǎng)絡(luò)從訓(xùn)練數(shù)據(jù)中的動作狀態(tài)數(shù)據(jù)提取對抗軌跡特征信息，基于注意力機制集成整合基礎(chǔ)決策模型輸出的基礎(chǔ)策略信息，進(jìn)一步集成得到預(yù)測策略信息，在完成梯度更新網(wǎng)絡(luò)的訓(xùn)練后，得到訓(xùn)練數(shù)據(jù)中每個智能體的第二集成策略信息，通過集成策略學(xué)習(xí)模型中的神經(jīng)演化模塊基于策略評估值通過交叉和變異進(jìn)行進(jìn)化，其中由于訓(xùn)練數(shù)據(jù)是小批量數(shù)據(jù)，本方法通過評估并去除對抗得分值中的運氣因素值，在有限軌跡數(shù)據(jù)的基礎(chǔ)上實現(xiàn)了策略的準(zhǔn)確評估。通過策略評估值選取表現(xiàn)優(yōu)異的智能體，得到表現(xiàn)最優(yōu)的集成策略信息。

技術(shù)領(lǐng)域

本申請涉及人工智能領(lǐng)域，特別是涉及一種面向不完全信息博弈的集成策略學(xué)習(xí)方法、裝置和計算機設(shè)備。

背景技術(shù)

大規(guī)模不完全信息博弈是人工智能中的熱點研究領(lǐng)域，在城市安全、反恐維穩(wěn)、邊境緝毒以及野生動物保護等領(lǐng)域都具有廣泛應(yīng)用。不完全信息博弈是防御者和攻擊者相互對抗的形式化描述。以專家知識、博弈理論、強化學(xué)習(xí)等為典型代表的博弈求解范式，在求解不完全信息博弈時具有不同缺點。例如：博弈論中的納什均衡是一種在統(tǒng)計意義上的不敗策略，但并非最優(yōu)策略。強化學(xué)習(xí)可以在有限對局中取得較好的效果，但容易被利用。專家知識的方法在求解大規(guī)模的博弈問題時，具有很好的可解釋性和可靠性，但固化的知識容易被對手發(fā)現(xiàn)規(guī)律加以利用。

現(xiàn)有技術(shù)中，針對同一博弈問題，即使已構(gòu)建專家知識、博弈理論和強化學(xué)習(xí)等不同決策模型，但多種決策無法有效集成，更無法處理不完全信息。因此，現(xiàn)有策略集成技術(shù)存在適應(yīng)性不佳的問題。

發(fā)明內(nèi)容

基于此，有必要針對上述技術(shù)問題，提供一種能夠提高策略表現(xiàn)效果的面向不完全信息博弈的集成策略學(xué)習(xí)方法、裝置和計算機設(shè)備。

一種面向不完全信息博弈的集成策略學(xué)習(xí)方法，所述方法包括：

獲取對抗場景中博弈雙方的訓(xùn)練數(shù)據(jù)；所述訓(xùn)練數(shù)據(jù)中包括對手池信息、多個迭代版本的智能體與所述對手池信息中不同對手對抗的動作狀態(tài)數(shù)據(jù)、推薦策略信息、基礎(chǔ)決策模型輸出的基礎(chǔ)策略信息；所述基礎(chǔ)決策模型為預(yù)先設(shè)計的，數(shù)量至少有兩個；所述對手池信息中對手的信息為不完全信息；

將所述訓(xùn)練數(shù)據(jù)輸入預(yù)先設(shè)計的集成策略學(xué)習(xí)模型中；所述集成策略學(xué)習(xí)模型包括梯度更新網(wǎng)絡(luò)和神經(jīng)演化模塊；所述梯度更新網(wǎng)絡(luò)包括長短時記憶網(wǎng)絡(luò)模塊，注意力機制模塊，全連接網(wǎng)絡(luò)模塊和輸出模塊；所述神經(jīng)演化模塊包括中心化評估模塊、基因編碼模塊和進(jìn)化操作模塊；

通過所述長短時記憶網(wǎng)絡(luò)模塊根據(jù)每個智能體的所述動作狀態(tài)數(shù)據(jù)提取對抗軌跡特征信息，通過所述注意力機制模塊對所述基礎(chǔ)策略信息進(jìn)行加權(quán)集成得到第一集成策略信息，通過所述全連接網(wǎng)絡(luò)根據(jù)所述對抗軌跡特征信息和所述第一集成策略進(jìn)行進(jìn)一步處理，并通過所述輸出模塊激活輸出，得到每個智能體的預(yù)測策略信息；

以所述推薦策略信息為標(biāo)簽信息，根據(jù)所述預(yù)測策略信息和所述標(biāo)簽信息對所述梯度更新網(wǎng)絡(luò)進(jìn)行有監(jiān)督訓(xùn)練，得到訓(xùn)練好的梯度更新網(wǎng)絡(luò)，通過所述訓(xùn)練好的梯度更新網(wǎng)絡(luò)根據(jù)所述訓(xùn)練數(shù)據(jù)輸出所述訓(xùn)練數(shù)據(jù)的第二集成策略信息；

通過所述中心化評估模塊根據(jù)所述訓(xùn)練數(shù)據(jù)的第二集成策略信息將對應(yīng)的智能體與所述對手池信息中的每個對手分別對抗，評估并去除對抗得分值中的運氣因素值，再對所述第二集成策略進(jìn)行評估得到精確的策略評估值；

通過所述基因編碼模塊將所述訓(xùn)練數(shù)據(jù)的第二集成策略信息表示為參數(shù)待優(yōu)化的神經(jīng)網(wǎng)絡(luò)；

通過所述進(jìn)化操作模塊將所有所述參數(shù)待優(yōu)化的神經(jīng)網(wǎng)絡(luò)的參數(shù)構(gòu)成種群，根據(jù)對應(yīng)的所述策略評估值將所述種群分為精英層和存活層，通過交叉操作算子和變異操作算子進(jìn)行多代種群演化，以對所述參數(shù)待優(yōu)化的神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化；其中，所述精英層中的個體對變異免疫，所述存活層中的個體必須經(jīng)過變異才能進(jìn)入下一代；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科技大學(xué)，未經(jīng)中國人民解放軍國防科技大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210539137.9/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06N 基于特定計算模型的計算機系統(tǒng)
G06N3-00 基于生物學(xué)模型的計算機系統(tǒng)
G06N3-02 .采用神經(jīng)網(wǎng)絡(luò)模型
G06N3-12 .采用遺傳模型
G06N3-06 ..物理實現(xiàn)，即神經(jīng)網(wǎng)絡(luò)、神經(jīng)元或神經(jīng)元部分的硬件實現(xiàn)
G06N3-08 ..學(xué)習(xí)方法

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】