[發明專利]基于多智能體強化學習的大規模服務組合優化方法在審
| 申請號: | 201310161238.8 | 申請日: | 2013-05-03 |
| 公開(公告)號: | CN103248693A | 公開(公告)日: | 2013-08-14 |
| 發明(設計)人: | 王紅兵;王曉珺 | 申請(專利權)人: | 東南大學 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 楊曉玲 |
| 地址: | 211189 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 智能 強化 學習 大規模 服務 組合 優化 方法 | ||
1.一種基于多智能體強化學習的大規模服務組合優化方法,其特征在于,該方法包括以下步驟:
1)把Web服務組合的環境建模成一個6元組的Web服務組合馬爾可夫決策過程狀態轉移圖,即WSC-MDP=<S,s0,st,A(s),P:[piaj],R:[riaj]>,其中S為一系列原子動作從某個特定的初始狀態s0開始執行的可達到的狀態集合,s0表示初始狀態,表示動作還沒有發生時的狀態,也即工作流的初值,st用戶的目標狀態,也即工作流的終態,A(s)表示Web服務組合智能體在某一狀態s∈S是可執行的Web服務集合,P:[piaj]:為系統在某一狀態時,調用該狀態下的可用的Web服務,系統進入下一狀態的概率,R:[riaj]為某個狀態下調用服務的綜合評價回報值;
2)初始化強化學習中Q學習算法的學習速率、折扣因子、Q值和公共Q值Qp;
3)把進行Web服務組合優化的軟件實體作為能夠感知環境并能夠自主運行滿足設計目標的Web服務組合智能體,所述Web服務組合智能體感知環境中的狀態s;
4)Web服務組合智能體根據動作選擇策略選擇并執行動作A(s),得到新的狀態s′,同時從新的狀態s′中得到回報值r;
5)對Q學習中的Q值進行計算和更新,并將更新后為的Q值作為Web服務組合監督智能體的公共Q值,結束本次強化學習過程,所述Web服務組合監督智能體為指導與同步每個Web服務組合智能體學習過程的軟件實體;
6)判斷Q值是否收斂,如是,則把本次強化學習的結果作為最優Web服務執行工作流,否則令k=k+1后回到步驟3),k為返回步驟3)的迭代次數。
2.根據權利要求1所述的基于多智能體強化學習的大規模服務組合優化方法,其特征在于,所述步驟4)中的動作選擇策略為:
按照下列方式之一選擇動作:a.隨機選擇可行的動作,b.選擇使當前Q值最大的動作;
其中,有ε概率的可能按照方式a進行選擇,有1-ε概率的可能按照方式b進行選擇;
當按照方式b進行選擇時,由Web服務組合監督智能體確定并告知Web服務組合智能體當前Q值最大的動作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310161238.8/1.html,轉載請聲明來源鉆瓜專利網。





