[發明專利]基于深度強化學習的自動協商智能體設計方法在審
| 申請號: | 202111318748.2 | 申請日: | 2021-11-09 |
| 公開(公告)號: | CN114139680A | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 林杰;陳鍶奇;郝建業;鄭巖;馬億 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06Q10/10 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李素蘭 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 自動 協商 智能 設計 方法 | ||
本發明公開了一種基于深度強化學習的自動協商多智能體設計方法,首先,每個智能體使用強化學習算法獨立地學習一個策略;其次,使用長短期記憶網絡(LSTM,LongShort?Term Memory)來學習SARSA(λ)中的Q函數,將難以處理的狀態空間減少到可管理的特征數;最后,結合強化學習算法SARSA(λ)和神經網絡LSTM來構建智能體代理,每個智能體代理各自學習,將學習到的對環境狀態的觀察結果映射到要采取的行動的策略上,通過在環境中與其他代理交互更新自己的策略,最終學習到一個適當的行為策略來進行自動協商。與現有技術相比,本發明構建的智能體代理能夠在自動協商中進行更優的獲勝聯盟選擇,從而提高自身在協商中獲得的收益。
技術領域
本發明涉及多智能體強化學習領域,特別是涉及一種多智能體強化學習方法。
背景技術
同一環境中的多個人工智能體相互影響,并通過協調它們的行動獲得利益。許多任務對于單個智能體來說是非常棘手的,這時就需要一個協作團隊。如,搜索和救援、多機器人巡邏、供應鏈管理等。在許多情況下,利益相關者可以選擇與之合作的合作伙伴。
在有限的議價和環境中,夏普利值與核心和競爭均衡或納什均衡之間存在多種聯系。當特定類別的競爭性市場被建模為多人博弈以及交易者的集合均勻擴展時,夏普利值收斂到競爭均衡狀態。雖然這些適用于各種市場領域,但它們并不能涵蓋任意的談判設置。同時,談判等社會任務的成功需要多方面的智慧。之前的研究主要研究了合作博弈中交際的出現,如參照博弈、Lewis信號博弈的變體,其中信息被用來消除不同的可能指稱之間的歧義。古典博弈論中有關談判的工作通常使用簡單形式的報價/還價討價還價博弈,而這些博弈并沒有明確解決溝通的問題。
深度多智能體強化學習(MARL)通過在學習的同時與其他代理(agent)反復互動,利用主體逐漸實現包括運動技能和語言交流在內復雜行為的引導。但是,在MARL的現有技術中所考慮的環境僅涉及兩個代理,沒有考慮團隊的形成問題。從而避免了聯盟選擇的問題。“如何在博弈中通過交流信息組成對自己有利的聯盟,從而在博弈中比其他方法構建的智能體代理獲得更高的收益”是本發明亟待解決的技術問題。
發明內容
本發明旨在提出一種基于深度強化學習的自動協商智能體設計方法,實現了使用深度強化學習算法構建用于協商的智能體代理。
本發明采用以下的技術方案來實現:
一種基于深度強化學習的自動協商智能體設計方法,該方法包括以下步驟:
步驟1、每個智能體代理使用深度強化學習算法SARSA(λ)獨立地學習一個策略;
步驟2、采用神經網絡LSTM得到智能體代理在時間步長t的動作狀態值:
步驟3、使用強化學習算法Sarsa(λ)和神經網絡LSTM結合,來構建用于自動協商的智能體代理;每個智能體代理以獲得更高的獎勵值為唯一目標進行訓練,各自學習將對環境狀態的觀察結果映射到要采取的行動的策略;每個智能體代理使用強化學習算法,通過在環境中與其他代理交互更新自己的策略,最終學習到一個適當的行為策略。
與現有技術相比,本發明與現有的智能體代理算法相比,具有以下優勢:
1)相比于以往用于自動協商的需要手工設定規則的智能體代理,使用本深度強化學習算法構建的智能體代理具有良好的泛化型,能夠應對不同的協商規則而無需手工調整應用此方法構建的智能體代理的設置;
2)使用本深度強化學習算法構建的智能體代理能夠在自動協商中進行更優的獲勝聯盟選擇,從而提高自身在協商中獲得的收益。
附圖說明
圖1為本發明的一種基于深度強化學習的自動協商多智能體設計方法整體流程圖
圖2為基于深度強化學習算法結構示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111318748.2/2.html,轉載請聲明來源鉆瓜專利網。





