[發明專利]一種基于深度確定性策略梯度的異構多智能體協同決策方法在審
| 申請號: | 201810397866.9 | 申請日: | 2018-04-28 |
| 公開(公告)號: | CN108600379A | 公開(公告)日: | 2018-09-28 |
| 發明(設計)人: | 李瑞英;王瑞;胡曉惠;張慧 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;H04L12/24 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 楊學明;顧煒 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 異構 多智能體 智能體 確定性 運動環境 協同 構建 智能 決策 策略優化 動作空間 決策領域 決策行動 實際需求 特征屬性 梯度算法 系統領域 訓練學習 運動狀態 智能感知 狀態空間 狀態序列 評判 反饋 評估 | ||
1.一種基于深度確定性策略梯度的異構多智能體協同決策方法,其特征在于,包括以下步驟:
步驟1:定義異構多智能體的特征屬性和獎懲規則,明確智能體的狀態空間和動作空間,將每一個智能體抽象為環境中的一個運動節點,構建異構多智能體進行協同決策的運動環境;
步驟2:基于深度確定性策略梯度算法,建立進行決策行動的actor模塊和評判反饋的critic模塊,隨機初始化參數;
步驟3:多智能體在步驟1構建的運動環境中,自主隨機地進行運動探索:各智能體根據當前的狀態s,由actor模塊得到動作a,并到達下一狀態s';同時,依據獎懲規則計算在當前狀態s下采取動作a到達下一狀態s'時環境所給予的獎懲回報r,將每一步的<當前狀態s,當前動作a,下一步狀態s',獎懲回報r>儲存到經驗池中;
步驟4:根據步驟3經驗池中存儲的<s,a,s',r>對,對critic模塊和actor模塊的參數進行訓練和學習,同時用新產生的<s,a,s',r>對替換經驗池中之前存儲的<s,a,s',r>對,重復步驟4,直至滿足多智能體協同決策的優化終止條件或最大迭代步數;
步驟5:利用訓練好的模型,在已知智能體當前狀態s的情況下,得到智能體的當前動作a,并到達下一狀態s',重復步驟5,直到完成任務或達到環境的終止條件,得到智能體的狀態序列;同時,依據環境設置的獎懲規則,完成智能體運動狀態序列的態勢評估。
2.根據權利要求1所述的基于深度確定性策略梯度的異構多智能體協同決策方法,其特征在于,所述步驟1的具體實現子步驟包括:
步驟1.1:根據異構智能體的特征屬性,將每個智能體抽象為環境中的一個運動節點;
步驟1.2:設定智能體的動作:[下一步的運動方向];設定智能體的狀態:[自身的位置坐標x、y,目標的位置坐標x、y,自身位置與目標位置的方位角θ];
步驟1.3:設置環境中的獎懲規則;
步驟1.4:多智能體抽象的運動節點,智能體的動作空間和狀態空間,環境中的獎懲規則共同構建了一個異構多智能體進行協同決策的運動環境。
3.根據權利要求1所述的基于深度確定性策略梯度的異構多智能體協同決策方法,其特征在于,所述步驟2的具體實現子步驟如下:
步驟2.1:設立一個單獨的經驗池存儲各智能體的狀態-動作對<當前狀態s,當前動作a,下一步狀態s',回報r>;
步驟2.2:建立actor模塊,將各智能體的狀態s作為網絡的輸入,經過若干中間層得到各智能體的下一步輸出動作a;同時,保留一個actor網絡結構副本,該actor網絡結構副本只在一定的時間步長才進行參數的更新;
步驟2.3:建立critic模塊,將智能體的狀態s和動作a作為網絡的輸入,經過若干中間層輸出為動作-價值Q;同時,保留一個critic網絡結構副本,該critic網絡結構副本同樣在一定的時間步長才進行參數的更新。
4.根據權利要求1所述的基于深度確定性策略梯度的異構多智能體協同決策方法,其特征在于,所述步驟4具體實現子步驟如下:
步驟4.1:critic模塊包含了兩個結構完全相同、參數更新時間不一致的網絡模型,將即時更新參數的網絡模型Q稱之為在線critic,其參數表示為θQ;將延遲更新的網絡模型Q'稱之為目標critic,其參數表示為θQ';
對于目標critic,根據經驗池<當前狀態s,當前動作a,下一步狀態s',回報r>,在當前狀態s下采取動作a,到達下一狀態s',并得到即時回報r;利用目標actor網絡估計得到下一狀態s'時采取的下一動作a',計算目標動作-價值函數可表示為Q'(s',a'|θQ'),則由Q'可以得出在當前狀態s下采取動作a的估計期望回報y:
y=r+γQ'(s',a'|θQ')
其中,γ(γ∈[0,1])表示一個衰減因子;
對于在線critic,根據經驗池中的當前狀態s和當前動作a,計算得到動作-價值Q,即在線期望回報Q(s,a|θQ);
估計期望回報y與在線期望回報Q(s,a|θQ)的均方誤差計算公式為:
利用誤差L可以完成對在線critic網絡的參數更新;
目標critic是在線critic的延遲更新,目標critic的參數更新公式為:
θQ'=τθQ+(1-τ)θQ'
其中,τ是一個平衡因子;
步驟4.2:actor模塊包含兩個結構完全相同、參數更新時間不一致的網絡模型,及時更新參數的網絡模型μ為在線actor,其參數表示為θμ;延遲更新參數的網絡模型μ'為目標actor,其參數表示為θμ';
對于目標actor,根據經驗池<當前狀態s,當前動作a,下一步狀態s',回報r>中的下一狀態s',計算得到s'的下一動作a',即μ'(s'|θμ'),用于計算目標critic的目標動作-價值函數Q'(s',a'|θQ');
對于在線actor,根據經驗池中的當前狀態s,計算實際的當前動作,即μ(s|θμ);通過當前狀態s的實際動作μ(s|θμ)和在線critic輸出的Q(s,a|θQ)聯合更新在線actor網絡的參數,其梯度下降公式為:
目標actor是在線actor的延遲更新,目標actor的參數更新公式為:
θμ'=τθμ+(1-τ)θμ'
其中,τ是一個平衡因子;
步驟4.3:訓練critic網絡和actor網絡的模型參數,并用新產生的<s,a,s',r>對替換經驗池中之前存儲的<s,a,s',r>對;重復步驟4,直至滿足多智能體協同決策的優化終止條件或達到最大迭代步數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810397866.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文件下載方法、裝置、終端和存儲介質
- 下一篇:帳篷醫院應急指揮信息化系統





