[發(fā)明專利]結(jié)合高斯過程與強化學習的服務組合方法有效
| 申請?zhí)枺?/td> | 201710055817.2 | 申請日: | 2017-01-25 |
| 公開(公告)號: | CN106850289B | 公開(公告)日: | 2020-04-24 |
| 發(fā)明(設(shè)計)人: | 王紅兵;李佳杰 | 申請(專利權(quán))人: | 東南大學 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L29/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 結(jié)合 過程 強化 學習 服務 組合 方法 | ||
1.一種結(jié)合高斯過程與強化學習的服務組合方法,其特征在于,包括如下步驟:
(1)將服務組合問題建模為如下四元組馬爾可夫決策過程:
M=S,A,P,R
其中S是環(huán)境中有限狀態(tài)的集合;A是可調(diào)用的動作的集合,A(s)表示在狀態(tài)s下可進行的動作的集合;P是描述MDP狀態(tài)轉(zhuǎn)移的函數(shù),P(s′|s,a)表示在狀態(tài)s下調(diào)用動作a后轉(zhuǎn)移到狀態(tài)s′的概率;R是回報值函數(shù),R(s,a)表示在狀態(tài)s下調(diào)用動作a所得的回報值;
(2)應用基于Q-learning的強化學習方法求解四元組馬爾可夫決策過程,得到最優(yōu)策略;
(3)將最優(yōu)策略映射為web服務組合的工作流;
所述步驟(2)應用基于Q-learning的強化學習方法求解四元組馬爾可夫決策過程,得到最優(yōu)策略,包括如下步驟:
(21)將狀態(tài)動作對z=s,a作為輸入,對應的Q值Q(z)作為輸出,建立Q值高斯預測模型;
(22)初始化Q-learning中學習率σ,折扣率γ,貪心策略概率ε,當前狀態(tài)st=0,當前時間步長t=0;
(23)用概率為ε的貪心策略選擇當前服務at并執(zhí)行;
(24)記錄在當前狀態(tài)st下執(zhí)行當前服務at的回報值rt和執(zhí)行當前服務at后的狀態(tài)st+1;根據(jù)下式計算在狀態(tài)動作對zt=st,at下的Q值:
其中Q(zt)為在狀態(tài)動作對zt=st,at下的Q值,σ為學習率,rt為回報值,γ為折扣率,st+1為執(zhí)行服務at后從當前狀態(tài)st轉(zhuǎn)移到的后繼狀態(tài),at+1為在狀態(tài)st+1下選擇的服務,Q(st+1,at+1)表示在狀態(tài)動作對st+1,at+1下的Q值;
(25)按照高斯預測模型更新Q值:
其中I為單位矩陣,ωn為不確定性參數(shù),Z為歷史狀態(tài)動作對的集合,為與Z對應的歷史Q值的集合,K(Z,Z)為歷史狀態(tài)動作對之間的協(xié)方差矩陣,其第i行j列元素為k(zi,zj),k(·)為核函數(shù);K(Z,zt+1)為歷史狀態(tài)動作對與新輸入的狀態(tài)動作對zt+1之間的協(xié)方差矩陣;
根據(jù)狀態(tài)動作對zt+1=st+1,at+1以及對應的Q值Q(zt+1)更新高斯預測模型;
(26)更新當前狀態(tài):st=st+1,當st為終止狀態(tài)且滿足收斂條件時,強化學習結(jié)束,得到最優(yōu)策略;否則轉(zhuǎn)步驟(23)。
2.根據(jù)權(quán)利要求1所述的結(jié)合高斯過程與強化學習的服務組合方法,其特征在于,高斯預測模型中的核函數(shù)k(·)為高斯核函數(shù):
其中σk為高斯核函數(shù)的寬度。
3.根據(jù)權(quán)利要求1所述的結(jié)合高斯過程與強化學習的服務組合方法,其特征在于,步驟(26)中所述的收斂條件為:Q值的變化小于Q值門限Qth,即:|Q(zt)-Q(zt+1)|Qth。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學,未經(jīng)東南大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710055817.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種終端控制方法、終端及系統(tǒng)
- 下一篇:漢琴





