[發(fā)明專利]一種基于DQN的云際資源接入的決策方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202310318592.0 | 申請(qǐng)日: | 2023-03-28 |
| 公開(公告)號(hào): | CN116471300A | 公開(公告)日: | 2023-07-21 |
| 發(fā)明(設(shè)計(jì))人: | 曾榮飛;趙明洋;褚曉文;劉羽飛;韓子森 | 申請(qǐng)(專利權(quán))人: | 東北大學(xué) |
| 主分類號(hào): | H04L67/12 | 分類號(hào): | H04L67/12;G06N3/045;G06N3/0464;G06N3/092;H04L41/14;H04L41/142 |
| 代理公司: | 北京科領(lǐng)智誠(chéng)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11782 | 代理人: | 陳士騫 |
| 地址: | 110819 遼寧*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 dqn 云際 資源 接入 決策 方法 系統(tǒng) | ||
本發(fā)明公開一種基于DQN的云際資源接入的決策方法及系統(tǒng),涉及云計(jì)算領(lǐng)域,包括設(shè)定動(dòng)作;初始化評(píng)估網(wǎng)絡(luò);設(shè)置目標(biāo)網(wǎng)絡(luò);采集狀態(tài)信息;評(píng)估網(wǎng)絡(luò)執(zhí)行動(dòng)作;迭代訓(xùn)練評(píng)估網(wǎng)絡(luò);更新目標(biāo)網(wǎng)絡(luò);將狀態(tài)信息輸入新目標(biāo)網(wǎng)絡(luò),得到初步接入決策;根據(jù)初步接入決策判斷是否接入,若接入,云商提供待接入資源;若不接入,云商判斷是否改變待接入資源信息,若是,將改變后的狀態(tài)信息輸入新目標(biāo)網(wǎng)絡(luò),再次判斷是否接入,若否,不接入資源;將接入情況反饋至平臺(tái),狀態(tài)信息ssubgt;t/subgt;更新后,跳轉(zhuǎn)至采集狀態(tài)信息ssubgt;t/subgt;步驟。本發(fā)明應(yīng)用深度強(qiáng)化學(xué)習(xí)中的DQN算法進(jìn)行接入決策,能夠節(jié)約大量人力成本,同時(shí)極大程度提高資源接入的效率。
技術(shù)領(lǐng)域
本發(fā)明涉及云計(jì)算領(lǐng)域,具體而言,涉及一種基于DQN的云際資源接入的決策方法及系統(tǒng)。
背景技術(shù)
近年來(lái),云際計(jì)算已成為新一代云計(jì)算模式,支持云服務(wù)提供者之間開放協(xié)作、多方云資源深度融合,為建設(shè)全國(guó)一體化大數(shù)據(jù)中心、引領(lǐng)數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展提供關(guān)鍵支撐。全時(shí)全域的多樣化存算和資源確權(quán)流通是構(gòu)建大規(guī)模云際計(jì)算生態(tài)的基礎(chǔ)需求,但面臨著資源匯聚難、工作流調(diào)度復(fù)雜、資源跨域交互缺少可信監(jiān)管與高效治理等痛點(diǎn)問(wèn)題。為此,急需研究全時(shí)全域、高可信、隱私保護(hù)的云監(jiān)管與治理體系,突破契約式跨域磋商、多目標(biāo)動(dòng)態(tài)分配與并行調(diào)度、聯(lián)邦式多方計(jì)算治理以及軟件系統(tǒng)差異化部署與動(dòng)態(tài)重構(gòu)技術(shù)。
在異構(gòu)的多維資源云計(jì)算場(chǎng)景下,縱向接入和適配機(jī)制需要能夠感知大量用戶的實(shí)際資源使用需求,充分考慮平臺(tái)的數(shù)據(jù)資源、存儲(chǔ)資源、計(jì)算資源、網(wǎng)絡(luò)資源等不同層級(jí)的已有資源情況,甚至需要權(quán)衡傳統(tǒng)云和邊緣云的不同資源和使用成本,來(lái)決定是否接入和適配不同類型資源。現(xiàn)有的云際計(jì)算場(chǎng)景下的縱向接入和適配機(jī)制主要有兩種,一種是直接將云服務(wù)提供商想為云際平臺(tái)提供上架的資源直接接入,這種不加選擇的資源接入會(huì)導(dǎo)致平臺(tái)中資源冗余,不考慮平臺(tái)資源情況與用戶的實(shí)際資源使用需求以及平臺(tái)的接入成本、資源利用率,導(dǎo)致平臺(tái)成本提高,資源利用率低;另一種是由人工進(jìn)行資源接入審核以及接入決策,這種方法過(guò)于耗費(fèi)人力資源,提高了維護(hù)平臺(tái)的人力成本,而且云際平臺(tái)體量巨大,大量云商資源接入請(qǐng)求頻繁,人工處理效率低下。
針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明將強(qiáng)化學(xué)習(xí)技術(shù)運(yùn)用到異構(gòu)的多維資源云計(jì)算場(chǎng)景的縱向接入及適配機(jī)制中,充分考慮平臺(tái)用戶等各種信息進(jìn)行智能決策,提出了一種采用深度強(qiáng)化學(xué)習(xí)中的DQN(deep?Q-network)算法來(lái)實(shí)現(xiàn)云際環(huán)境中的資源接入的動(dòng)態(tài)決策和適配機(jī)制。
發(fā)明內(nèi)容
本發(fā)明提供一種基于DQN的云際資源接入的決策方法及系統(tǒng),用以克服現(xiàn)有技術(shù)中存在的至少一個(gè)技術(shù)問(wèn)題。
一方面,本發(fā)明實(shí)施例提供一種基于DQN的云際資源接入的決策方法,包括:
設(shè)定動(dòng)作at,所述動(dòng)作at包括接入、不接入;
初始化評(píng)估網(wǎng)絡(luò)Q(st,at;w),其中,st表示狀態(tài)信息,w表示第一訓(xùn)練參數(shù);
設(shè)置目標(biāo)網(wǎng)絡(luò)為其中,w-表示第二訓(xùn)練參數(shù);
采集狀態(tài)信息st,所述狀態(tài)信息st包括平臺(tái)已有資源信息、用戶需求信息以及云商的待接入資源信息;
所述評(píng)估網(wǎng)絡(luò)Q(st,at;w)根據(jù)所述狀態(tài)信息st執(zhí)行所述動(dòng)作at,得到云商價(jià)值rt;
利用所述目標(biāo)網(wǎng)絡(luò)和所述云商價(jià)值rt循環(huán)迭代訓(xùn)練所述評(píng)估網(wǎng)絡(luò)Q(st,at;w),得到更新后的第一訓(xùn)練參數(shù);
利用所述更新后的第一訓(xùn)練參數(shù)更新所述目標(biāo)網(wǎng)絡(luò),得到新目標(biāo)網(wǎng)絡(luò);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東北大學(xué),未經(jīng)東北大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310318592.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于自舉DQN的增強(qiáng)學(xué)習(xí)深度搜索方法
- 一種基于強(qiáng)化學(xué)習(xí)的圖片動(dòng)態(tài)自適應(yīng)壓縮方法
- 基于DQN神經(jīng)網(wǎng)絡(luò)和高精度定位的駕駛行為優(yōu)化方法
- 一種基于引導(dǎo)式DQN控制的機(jī)械臂控制方法
- 基于Double DQN的改進(jìn)深度強(qiáng)化學(xué)習(xí)方法及系統(tǒng)
- 一種用于理解DQN模型的可視分析方法
- 基于強(qiáng)化學(xué)習(xí)和避讓策略的應(yīng)急車輛混合換道決策方法
- 一種基于強(qiáng)化學(xué)習(xí)的反無(wú)人機(jī)任務(wù)分配方法
- 基于DQN的車間多功能機(jī)器人
- 水聲網(wǎng)絡(luò)中基于深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)時(shí)域干擾對(duì)齊的MAC協(xié)議





