[發明專利]一種博弈策略優化方法、系統及存儲介質有效
| 申請號: | 202010399728.1 | 申請日: | 2020-05-13 |
| 公開(公告)號: | CN111291890B | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 王軒;漆舒漢;張加佳;胡書豪;黃旭忠;劉洋;蔣琳;廖清;夏文;李化樂 | 申請(專利權)人: | 哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院) |
| 主分類號: | G06N5/04 | 分類號: | G06N5/04;G06N3/08;G06N20/00 |
| 代理公司: | 深圳市添源知識產權代理事務所(普通合伙) 44451 | 代理人: | 羅志偉 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 博弈 策略 優化 方法 系統 存儲 介質 | ||
本發明提供了一種博弈策略優化方法、系統及存儲介質,該博弈策略優化方法包括建立基于最大熵的策略遞度算法步驟和多智能體最優反應策略求解步驟。本發明的有益效果是:本發明采用中心化訓練和分散式執行的方式,提高動作估值網絡的準確性,同時引入了全局基線獎勵來更準確地衡量智能體的動作收益,以此來解決人博弈中的信用分配問題。同時引入了最大熵方法來進行策略評估,平衡了策略優化過程中的探索與利用。
技術領域
本發明涉及人工智能技術領域,尤其涉及基于多智能體強化學習和虛擬自我對局的博弈策略優化方法、系統及存儲介質。
背景技術
現實場景中的諸多決策問題都可以建模成非完備信息博弈中的策略求解問題,但目前的機器博弈算法需要對問題的狀態空間進行抽象,在高維動作空間中表現不佳,且通常僅適用于二人博弈,而實際問題中的博弈大多數是多人博弈。
神經網絡虛擬自我對局 (Neural Fictitious Self-Play,NFSP)是一種在機器博弈領域引發諸多關注的博弈策略求解方法,通過自我博弈來進行學習,分別利用深度強化學習和監督學習來實現機器博弈中最佳響應策略的計算和平均策略的更新。自博弈通過采樣的方式來構造智能體的強化學習記憶,使其相當于近似對手采取平均策略的馬爾可夫決策過程 (Markov Decision Process, MDP) 經驗數據。因此通過強化學習算法對MDP(馬爾可夫決策過程)進行求解可以求解近似最優反應策略,同樣地,智能體的監督學習記憶可用來近似智能體自身的平均策略經驗數據,然后通過有監督分類算法求解策略。NFSP(神經網絡虛擬自我對局)智能體將其博弈的經驗數據存儲在一個有限的重放緩沖區中,進行蓄水池抽樣來避免抽樣誤差。同時NFSP(神經網絡虛擬自我對局)還可以使智能體使用預期動力學有效地跟蹤其對手的策略變化。
但是在多智能體博弈中的策略學習本質上比單智能體博弈更復雜,多智能體博弈中往往具有非平穩性,智能體不光要與對手進行交互,而且會受到其他智能體策略的影響。NFSP(神經網絡虛擬自我對局)中的預期動態可以感知二人博弈中的策略變化,但在多人博弈中作用有限。在 NFSP (神經網絡虛擬自我對局)中每次生成的樣本對應固定的對手策略,如果無法感知其他智能體帶來的策略影響,那么學習到的最優反應策略和平均策略都是不準確的,將會導致 MDP (馬爾可夫決策過程)的馬爾可夫性失效。此外在多智能體博弈中還存在維度災難、信用分配、全局探索等諸多問題。
發明內容
本發明提供了一種博弈策略優化方法,該博弈策略優化方法基于多智能體強化學習和虛擬自我對局進行實現,包括如下步驟:
建立基于最大熵的策略遞度算法步驟:在最大熵強化學習中,除了要最大化累計期望收益這個基本目標,還要最大化策略熵:
其中的 表示策略 在狀態 下的策略熵, 表示決定策略熵項重要程度的溫度系數,相當于用來控制智能體策略的隨機性,如果 則退化為傳統的強化學習算法;
多智能體最優反應策略求解步驟:采用中心化訓練分散式執行的方式來求解最優策略,通過基線獎勵評估合作博弈中的智能體收益。
作為本發明的進一步改進,在所述建立基于最大熵的策略遞度算法步驟中,溫度系數a的損失函數如下:
上述公式的意義就是保持策略熵大于的同時來優化策略,可以實現在博弈策略優化的不同階段溫度系數 α 可變。
本發明還提供了一種博弈策略優化系統,該博弈策略優化系統基于多智能體強化學習和虛擬自我對局進行實現,包括:
建立基于最大熵的策略遞度算法模塊:在最大熵強化學習中,除了要最大化累計期望收益這個基本目標,還要最大化策略熵:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院),未經哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010399728.1/2.html,轉載請聲明來源鉆瓜專利網。





