[發(fā)明專利]一種不完美信息擴展式博弈中計算最佳反應策略的方法有效
| 申請?zhí)枺?/td> | 201310568689.3 | 申請日: | 2013-11-15 |
| 公開(公告)號: | CN103559363A | 公開(公告)日: | 2014-02-05 |
| 發(fā)明(設(shè)計)人: | 高陽;胡裕靖;史穎歡 | 申請(專利權(quán))人: | 南京大學;江蘇萬維艾斯網(wǎng)絡智能產(chǎn)業(yè)創(chuàng)新中心有限公司 |
| 主分類號: | G06F17/50 | 分類號: | G06F17/50 |
| 代理公司: | 蘇州威世朋知識產(chǎn)權(quán)代理事務所(普通合伙) 32235 | 代理人: | 楊林潔 |
| 地址: | 210093*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 完美 信息 擴展 博弈 計算 最佳 反應 策略 方法 | ||
1.一種不完美信息擴展式博弈中計算最佳反應策略的方法,包括如下步驟:
(1)初始化局中人???????????????????????????????????????????????的策略、所有信息集的虛擬價值和虛擬遺憾值,其中為有限局中人集合;
(2)根據(jù)當前策略,與對手進行一次博弈,并記錄博弈結(jié)果;
(3)對于在本次博弈中每一個被訪問的信息集,根據(jù)目前為止所得到的所有博弈結(jié)果計算出該信息集的虛擬價值;
(4)根據(jù)步驟(3)所得到的虛擬價值,計算出每個信息集上每一個動作的虛擬遺憾值,其中表示在信息集上可以執(zhí)行的動作的集合;
(5)在每一個被訪問的信息集上執(zhí)行遺憾值匹配過程,更新該信息集上的策略;
(6)返回步驟(2),直至不再有博弈進行。
2.根據(jù)權(quán)利要求1所述一種不完美信息擴展式博弈中計算最佳反應策略的方法,其特征在于,所述步驟(3)中,采用基于統(tǒng)計采樣的方法,從目前所得到的博弈結(jié)果中計算出每個終止信息集的虛擬價值;而非終止信息集的虛擬價值通過其后繼信息集的虛擬價值計算出來。
3.根據(jù)權(quán)利要求1所述一種不完美信息擴展式博弈中計算最佳反應策略的方法,其特征在于,所述步驟(4)中,將信息集的虛擬價值與信息集的虛擬價值相減,得到動作的虛擬遺憾值,其中表示在信息集執(zhí)行動作后所到達的信息集。
4.根據(jù)權(quán)利要求1所述一種不完美信息擴展式博弈中計算最佳反應策略的方法,其特征在于,所述步驟(5)中,采用遺憾值匹配的方式,計算信息集上動作的執(zhí)行概率:如果動作的虛擬遺憾值越大,表明不執(zhí)行動作所造成的遺憾也就越大,相應地就應該更多地提高動作的執(zhí)行概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學;江蘇萬維艾斯網(wǎng)絡智能產(chǎn)業(yè)創(chuàng)新中心有限公司,未經(jīng)南京大學;江蘇萬維艾斯網(wǎng)絡智能產(chǎn)業(yè)創(chuàng)新中心有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310568689.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 博弈數(shù)據(jù)分析方法及裝置
- 一種在即時通訊工具中實現(xiàn)博弈活動的方法
- 面向多智能體同步博弈的建模方法及動作預測系統(tǒng)
- 一種多主體博弈的增量配電網(wǎng)源網(wǎng)荷協(xié)同規(guī)劃方法
- 一種基于三方演化博弈的配電網(wǎng)決策方法、裝置和設(shè)備
- 對抗環(huán)境下多無人機協(xié)同目標分配方法及系統(tǒng)
- 目標均衡博弈的處理方法和裝置
- 一種業(yè)務執(zhí)行方法、裝置及其相關(guān)設(shè)備
- 用于云原生應用資源調(diào)度的博弈優(yōu)化方法及其系統(tǒng)
- 一種機器博弈輔助決策方法及系統(tǒng)





