[發明專利]基于深度強化學習的自動協商智能體設計方法在審
| 申請號: | 202111318748.2 | 申請日: | 2021-11-09 |
| 公開(公告)號: | CN114139680A | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 林杰;陳鍶奇;郝建業;鄭巖;馬億 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06Q10/10 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李素蘭 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 自動 協商 智能 設計 方法 | ||
1.一種基于深度強化學習的自動協商智能體設計方法,其特征在于,該方法包括以下步驟:
步驟1、每個智能體代理使用深度強化學習算法SARSA(λ)獨立地學習一個策略;
步驟2、采用神經網絡LSTM得到智能體代理在時間步長t的動作狀態值;
步驟3、使用強化學習算法Sarsa(λ)和神經網絡LSTM結合,來構建用于自動協商的智能體代理;每個智能體代理以獲得更高的獎勵值為唯一目標進行訓練,各自學習將對環境狀態的觀察結果映射到要采取的行動的策略;每個智能體代理使用強化學習算法,通過在環境中與其他代理交互更新自己的策略,最終學習到一個適當的行為策略。
2.如權利要求1所述的一種基于深度強化學習的自動協商智能體設計方法,其特征在于,所述步驟1具體包括以下處理:
步驟1-1、SARSA(λ)在決策環節挑選最大動作值maxQ以施加在環境中來換取回報,當Sarsa(λ)處在狀態s時,選擇可帶來最大回報的動作a,作為估算動作;
步驟1-2、Sarsa(λ)將估算動作作為接下來要執行的動作,求出所挑選的最大動作值maxQ在現實和估計的差距,并更新Q表里的Q(s,a);
步驟1-3、SARSA(λ)對獲取獎勵所走的步都進行更新。
3.如權利要求1所述的一種基于深度強化學習的自動協商智能體設計方法,其特征在于,所述步驟2具體包括以下處理:
步驟2-1、進行智能體特征提取,輸出信息為該智能體的隱式特征信息xi,公式如下:
xi=embedding(ai,oi)
其中,oi表示智能體的局部觀察及其屬性信息,ai表示智能體基于局部觀察和策略所選擇的動作,embedding表示多層神經元感知器;
步驟2-2、將隱式特征信息xi傳入LSTM網絡,對每個輸入序列進行編碼,每個輸入序列對應一個LSTM網絡,得到兩個固定大小的向量;將兩個固定大小的向量連接起來輸入給前饋層,然后輸入ReLU非線性函數,得到智能體代理在時間步長t的動作狀態值,用于選擇需要采取的行動策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111318748.2/1.html,轉載請聲明來源鉆瓜專利網。





