[發(fā)明專利]一種基于Actor-Critic深度強(qiáng)化學(xué)習(xí)的SOC服務(wù)質(zhì)量保障系統(tǒng)及方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011502510.0 | 申請(qǐng)日: | 2020-12-18 |
| 公開(kāi)(公告)號(hào): | CN112612610B | 公開(kāi)(公告)日: | 2021-08-03 |
| 發(fā)明(設(shè)計(jì))人: | 周德雨;何小德;陳宗朗;陳永杰 | 申請(qǐng)(專利權(quán))人: | 廣州競(jìng)遠(yuǎn)安全技術(shù)股份有限公司 |
| 主分類號(hào): | G06F9/50 | 分類號(hào): | G06F9/50 |
| 代理公司: | 廣州圣理華知識(shí)產(chǎn)權(quán)代理有限公司 44302 | 代理人: | 肖勤 |
| 地址: | 510635 廣東省廣州市天*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 actor critic 深度 強(qiáng)化 學(xué)習(xí) soc 服務(wù)質(zhì)量 保障 系統(tǒng) 方法 | ||
1.一種基于Actor-Critic深度強(qiáng)化學(xué)習(xí)的SOC服務(wù)質(zhì)量保障系統(tǒng),其特征在于,包括用戶任務(wù)生成器、多個(gè)資源池、多個(gè)資源池任務(wù)最佳分配模塊、業(yè)務(wù)任務(wù)調(diào)度器、業(yè)務(wù)負(fù)載評(píng)估模塊和QoE評(píng)估模塊;
多個(gè)所述資源池任務(wù)最佳分配模塊與所述用戶任務(wù)生成器和業(yè)務(wù)任務(wù)調(diào)度器連接;所述業(yè)務(wù)任務(wù)調(diào)度器與多個(gè)所述資源池連接;多個(gè)所述資源池通過(guò)所述業(yè)務(wù)負(fù)載評(píng)估模塊與多個(gè)所述資源池任務(wù)最佳分配模塊一一對(duì)應(yīng)連接;多個(gè)所述資源池通過(guò)所述QoE評(píng)估模塊與多個(gè)所述資源池任務(wù)最佳分配模塊一一對(duì)應(yīng)連接;
所述用戶任務(wù)生成器根據(jù)用戶購(gòu)買的SOC業(yè)務(wù)包及用戶的實(shí)時(shí)需求,定時(shí)生成每一個(gè)用戶未來(lái)時(shí)間窗口內(nèi)的任務(wù)列表,并輸出到對(duì)應(yīng)的資源池任務(wù)最佳分配模塊;所述時(shí)間窗口記為W,所述時(shí)間窗口是一個(gè)可配置的常數(shù),該時(shí)間窗口的大小根據(jù)服務(wù)質(zhì)量保障系統(tǒng)的算力決定,缺省配置下W為24小時(shí);記第j個(gè)用戶的任務(wù)列表向量為:
Tj=(tj1,tj2…tjN),j∈[1,M],
其中,M表示M個(gè)用戶任務(wù)列表,M≥2且M為整數(shù),N表示N個(gè)資源池,N≥2且N為整數(shù),上式中tjn表示第j個(gè)用戶在時(shí)間窗口內(nèi)申請(qǐng)使用第n類業(yè)務(wù)的次數(shù),n∈[1,N];
所述業(yè)務(wù)負(fù)載評(píng)估模塊用于實(shí)時(shí)監(jiān)測(cè)各個(gè)資源池,生成每一個(gè)用戶提交的各類任務(wù)的歸一化資源負(fù)載需求向量,同時(shí),根據(jù)各個(gè)資源池的資源占用情況形成歸一化資源池占用情況向量以及獲取當(dāng)前空閑的資源池編號(hào),并反饋給資源池任務(wù)最佳分配模塊;所述歸一化資源負(fù)載需求向量定義為:
CLj=(clj1,clj2…cljN),j∈[1,M],式中cljn表示的是第j個(gè)用戶申請(qǐng)第n類業(yè)務(wù)時(shí)在云端為其提供一次該業(yè)務(wù)服務(wù)產(chǎn)生的負(fù)載,n∈[1,N];
所述歸一化資源池占用情況向量定義為:
SL=(sl1,sl2…slN),式中sln表示的是第n個(gè)資源池的資源占用情況,n∈[1,N];
當(dāng)前空閑的資源池編號(hào)為k,k∈[1,N];
資源池任務(wù)最佳分配模塊的最佳分配算法由該空閑的資源池信號(hào)驅(qū)動(dòng)運(yùn)行;
當(dāng)所述業(yè)務(wù)負(fù)載評(píng)估模塊監(jiān)測(cè)到任一資源池k完成了當(dāng)前的任務(wù)有空閑資源為用戶提供服務(wù)時(shí),定義此時(shí)刻為觀測(cè)停時(shí),當(dāng)監(jiān)測(cè)到觀測(cè)停時(shí)后,所述業(yè)務(wù)負(fù)載評(píng)估模塊向相應(yīng)的資源池k的資源池任務(wù)最佳分配模塊發(fā)送當(dāng)前相關(guān)評(píng)估數(shù)據(jù)并驅(qū)動(dòng)該資源池任務(wù)最佳分配模塊完成一次最佳分配算法的迭代;
所述QoE評(píng)估模塊用于實(shí)時(shí)監(jiān)測(cè)各個(gè)資源池內(nèi)的任務(wù)執(zhí)行情況,從而得出用戶對(duì)服務(wù)質(zhì)量的主觀感知QoE,并輸出給資源池任務(wù)最佳分配模塊;所述QoE評(píng)估模塊根據(jù)每個(gè)用戶訂購(gòu)服務(wù)時(shí)的業(yè)務(wù)打包情況以及用戶實(shí)時(shí)業(yè)務(wù)申請(qǐng)的情況,為每一個(gè)用戶統(tǒng)計(jì)時(shí)間窗口W內(nèi)完整業(yè)務(wù)序列的質(zhì)量指標(biāo)QoS;
所述質(zhì)量指標(biāo)QoS包括每個(gè)用戶每個(gè)業(yè)務(wù)任務(wù)的平均等待時(shí)間和平均執(zhí)行時(shí)間;
所述質(zhì)量指標(biāo)QoS進(jìn)行算數(shù)平均后記為QoSj,j∈[1,M],經(jīng)過(guò)韋伯-費(fèi)希納定律運(yùn)算獲得各用戶對(duì)業(yè)務(wù)質(zhì)量主觀感知的定量評(píng)價(jià)QoEj,j∈[1,M];
M個(gè)QoE評(píng)估向量輸出給資源池任務(wù)最佳分配模塊作為深度強(qiáng)化學(xué)習(xí)的反饋信號(hào);
所述資源池任務(wù)最佳分配模塊根據(jù)用戶任務(wù)生成器生成的所有用戶的任務(wù)列表以及業(yè)務(wù)負(fù)載評(píng)估模塊輸出的各個(gè)資源池的歸一化資源池占用情況向量SL、每一個(gè)用戶提交的各類任務(wù)的歸一化資源負(fù)載需求向量CLj和當(dāng)前的資源池編號(hào)K,以QoE評(píng)估模塊輸出的主觀感知QoE作為效果評(píng)估反饋依據(jù),運(yùn)行Actor-Critic深度強(qiáng)化學(xué)習(xí)算法,得到下一時(shí)刻用戶待執(zhí)行任務(wù)在資源池上的分配方案;
所述業(yè)務(wù)任務(wù)調(diào)度器用于接收來(lái)自資源池任務(wù)最佳分配模塊輸出的任務(wù)分配方案,通過(guò)任務(wù)調(diào)度接口完成任務(wù)調(diào)度,并指派相應(yīng)的資源池執(zhí)行任務(wù)分配方案中指定的用戶任務(wù)。
2.如權(quán)利要求1所述的一種基于Actor-Critic深度強(qiáng)化學(xué)習(xí)的SOC服務(wù)質(zhì)量保障系統(tǒng),其特征在于,所述資源占用情況包括CPU、RAM以及HD的占用情況。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州競(jìng)遠(yuǎn)安全技術(shù)股份有限公司,未經(jīng)廣州競(jìng)遠(yuǎn)安全技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011502510.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于Actor模型的調(diào)度方法及裝置
- 一種基于Actor模型的多設(shè)備運(yùn)行管理方法
- 一種基于Actor-Critic算法的數(shù)控機(jī)床進(jìn)給控制補(bǔ)償方法
- 一種基于Actor模型的SE芯片測(cè)試設(shè)計(jì)方法
- 一種基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人路徑導(dǎo)航方法及系統(tǒng)
- 一種在線考試系統(tǒng)試卷答案數(shù)據(jù)傳輸方法及裝置
- 一種基于混合行為空間的強(qiáng)化學(xué)習(xí)方法
- 基于Actor模型的任務(wù)調(diào)度方法、裝置
- 一種基于模仿學(xué)習(xí)的Deepfake檢測(cè)方法
- 一種基于actor模型的物聯(lián)網(wǎng)設(shè)備通訊方法和系統(tǒng)
- 一種基于Actor-Critic算法的數(shù)控機(jī)床進(jìn)給控制補(bǔ)償方法
- 基于Actor-Critic生成式對(duì)抗網(wǎng)絡(luò)的圖片描述生成方法及系統(tǒng)
- 共享循環(huán)神經(jīng)網(wǎng)絡(luò)的高效值函數(shù)迭代強(qiáng)化學(xué)習(xí)方法
- 一種基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人路徑導(dǎo)航方法及系統(tǒng)
- 基于深度強(qiáng)化學(xué)習(xí)中Actor-Critic框架的策略選擇方法
- 面向深度強(qiáng)化學(xué)習(xí)對(duì)抗攻擊的模型增強(qiáng)防御方法
- 一種基于數(shù)據(jù)挖掘的多critic強(qiáng)化學(xué)習(xí)的電力經(jīng)濟(jì)調(diào)度方法
- 基于策略迭代的移動(dòng)機(jī)器人軌跡跟蹤控制方法
- 一種基于深度強(qiáng)化學(xué)習(xí)的無(wú)人駕駛端到端決策方法
- 一種基于值分解和注意力機(jī)制的多智能體強(qiáng)化學(xué)習(xí)方法





