[發(fā)明專利]一種基于邊緣計(jì)算的強(qiáng)化學(xué)習(xí)方法、裝置與系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202010380253.1 | 申請(qǐng)日: | 2020-05-08 |
| 公開(kāi)(公告)號(hào): | CN113627616A | 公開(kāi)(公告)日: | 2021-11-09 |
| 發(fā)明(設(shè)計(jì))人: | 吳棟;周勝平;林俊杰;吳敏;梁?jiǎn)讨?/a>;仲景武 | 申請(qǐng)(專利權(quán))人: | 阿爾法云計(jì)算(深圳)有限公司 |
| 主分類號(hào): | G06N20/00 | 分類號(hào): | G06N20/00;G06N7/00;G06N3/12 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 518000 廣東省深圳市南*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 邊緣 計(jì)算 強(qiáng)化 學(xué)習(xí)方法 裝置 系統(tǒng) | ||
本發(fā)明提出一種基于邊緣計(jì)算的強(qiáng)化學(xué)習(xí)方法,所述強(qiáng)化學(xué)習(xí)過(guò)程還有至少一個(gè)邊緣節(jié)點(diǎn)與至少有一個(gè)終端設(shè)備的參與。所述方法為:云服務(wù)器以策略來(lái)控制運(yùn)行于終端設(shè)備上的強(qiáng)化學(xué)習(xí)任務(wù)的終端采樣;在邊緣節(jié)點(diǎn)以采集與評(píng)估作局部更新,從而得到邊緣節(jié)點(diǎn)范圍內(nèi)局部的優(yōu)化策略;邊緣節(jié)點(diǎn)再將局部?jī)?yōu)化的結(jié)果上報(bào)給云服務(wù)器,云服務(wù)器對(duì)強(qiáng)化學(xué)習(xí)的策略作全局優(yōu)化并下發(fā),以此完成分布式算力下的強(qiáng)化學(xué)習(xí)任務(wù)。此邊緣計(jì)算的強(qiáng)化學(xué)習(xí)方法可以有效利用端邊云的算力分布式特點(diǎn),提升邊緣節(jié)點(diǎn)數(shù)據(jù)采集與處理的實(shí)時(shí)性,降低AI應(yīng)用的成本,加速AI的應(yīng)用普及。
技術(shù)領(lǐng)域
本申請(qǐng)涉及AI領(lǐng)域的強(qiáng)化學(xué)習(xí)方法,主要涉及基于邊緣節(jié)點(diǎn)及終端設(shè)備協(xié)助作強(qiáng)化學(xué)習(xí)的方法。
背景技術(shù)
目前人們普遍認(rèn)為人工智能(AI-Artificial Intelligence)會(huì)是二十一世紀(jì)及以后最具影響力的技術(shù)之一。現(xiàn)有主流的AI技術(shù)依然屬于機(jī)器學(xué)習(xí)與相關(guān)算法。在所有AI算法的表現(xiàn)中,以國(guó)際互聯(lián)網(wǎng)巨頭谷歌通過(guò)人機(jī)圍棋大戰(zhàn)吸引了社會(huì)注意力并打開(kāi)AI應(yīng)用大門的,功臣首推AlphaGo,其背后的AI算法主要是強(qiáng)化學(xué)習(xí)。
強(qiáng)化學(xué)習(xí)是通過(guò)一系列 行動(dòng)、評(píng)估、調(diào)整 來(lái)改進(jìn)行動(dòng)策略的機(jī)器算法。行之有效的算法依賴于擁有海量的行動(dòng)結(jié)果與評(píng)估,故強(qiáng)化學(xué)習(xí)算法屬于計(jì)算密集型計(jì)算任務(wù)。所以AlphaGo部署在具有超強(qiáng)計(jì)算能力的云環(huán)境中,其算力承載硬件是大量?jī)?yōu)化后的GPU。但隨著物聯(lián)網(wǎng)(IoT-Internet of Things)的到來(lái),算力越來(lái)越具有去中心化的特點(diǎn)。跟圍棋的棋局類似,自動(dòng)駕駛以及許多任務(wù)均具有強(qiáng)化學(xué)習(xí)的特征。但完全基于集中式的云環(huán)境作強(qiáng)化學(xué)習(xí)的機(jī)器算法演算,既不適應(yīng)未來(lái)IoT的趨勢(shì),也無(wú)法充分利用分布式的算力。
發(fā)明內(nèi)容
因此,本申請(qǐng)?zhí)岢鼋鉀Q上述問(wèn)題、利用邊緣及終端AI節(jié)點(diǎn)來(lái)執(zhí)行強(qiáng)化學(xué)習(xí)算法,以充分利用端邊云分布式算力的特點(diǎn),并保障數(shù)據(jù)采樣與處理的實(shí)時(shí)性。這些方法,應(yīng)用于不特定的工具、設(shè)備、系統(tǒng)甚至數(shù)據(jù)中心或云服務(wù)中心,從而構(gòu)成一個(gè)基于邊緣計(jì)算的強(qiáng)化學(xué)習(xí)系統(tǒng)。為此,本發(fā)明:
一方面,提出一種基于邊緣計(jì)算的強(qiáng)化學(xué)習(xí)方法,所述強(qiáng)化學(xué)習(xí)過(guò)程還有至少一個(gè)邊緣節(jié)點(diǎn)與至少一個(gè)終端設(shè)備的參與。還包括:
接收第一數(shù)據(jù)集,所述第一數(shù)據(jù)集為所述學(xué)習(xí)過(guò)程的參與者信息;確定第二數(shù)據(jù)集,所述第二數(shù)據(jù)集描述強(qiáng)化學(xué)習(xí)的任務(wù);確定第三數(shù)據(jù)集,所述第三數(shù)據(jù)集描述所述強(qiáng)化學(xué)習(xí)任務(wù)的策略與評(píng)估方式,所述采樣操作適用于所述強(qiáng)化學(xué)習(xí)任務(wù);根據(jù)第一數(shù)據(jù)集所描述的參與者,下發(fā)所述第二數(shù)據(jù)集與所述第三數(shù)據(jù)集;接收第四數(shù)據(jù)集,所述第四數(shù)據(jù)集來(lái)自于所述第一數(shù)據(jù)集所描述的參與者,所述第四數(shù)據(jù)集為所述第三數(shù)據(jù)集中的所述評(píng)估方式實(shí)施于按所述策略所采樣內(nèi)容的實(shí)施結(jié)果;更新第三數(shù)據(jù)集,所述對(duì)第三數(shù)據(jù)集的更新來(lái)自于第四數(shù)據(jù)集。進(jìn)一步,還包括,所述第三數(shù)據(jù)集所描述的策略,適用于參與所述強(qiáng)化學(xué)習(xí)任務(wù)的所述終端設(shè)備。進(jìn)一步,還包括,所述第二數(shù)據(jù)集的任務(wù)描述,對(duì)應(yīng)于所述邊緣節(jié)點(diǎn)為第五任務(wù)描述;所述第二數(shù)據(jù)集的任務(wù)描述,對(duì)應(yīng)于所述終端設(shè)備為第六任務(wù)描述。進(jìn)一步,還包括,所述第五任務(wù)運(yùn)行于所述邊緣節(jié)點(diǎn);所述第六任務(wù)運(yùn)行于所述終端設(shè)備。進(jìn)一步,還包括,從所述第四數(shù)據(jù)集遴選與確定優(yōu)質(zhì)策略集;使用第七算法訓(xùn)練所述的優(yōu)質(zhì)策略集,得到新采樣策略;使用所述新采樣策略代替原采樣策略。進(jìn)一步,還包括,所述第七算法或者為貝葉斯優(yōu)化算法,或者為遺傳算法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿爾法云計(jì)算(深圳)有限公司,未經(jīng)阿爾法云計(jì)算(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010380253.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





