[發(fā)明專利]一種智能體的強化學(xué)習(xí)模型訓(xùn)練方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202111326221.4 | 申請日: | 2021-11-10 |
| 公開(公告)號: | CN114117752A | 公開(公告)日: | 2022-03-01 |
| 發(fā)明(設(shè)計)人: | 王正偉 | 申請(專利權(quán))人: | 杭州海康威視數(shù)字技術(shù)股份有限公司 |
| 主分類號: | G06F30/20 | 分類號: | G06F30/20;G06N20/00 |
| 代理公司: | 北京柏杉松知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11413 | 代理人: | 項京;高鶯然 |
| 地址: | 310051 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 智能 強化 學(xué)習(xí) 模型 訓(xùn)練 方法 系統(tǒng) | ||
1.一種智能體的強化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,應(yīng)用于強化學(xué)習(xí)模型訓(xùn)練系統(tǒng)中的中心訓(xùn)練服務(wù)器,所述系統(tǒng)還包括至少一個環(huán)境服務(wù)器,每個所述環(huán)境服務(wù)器運行至少一個仿真環(huán)境,每個仿真環(huán)境包括至少一個智能體,智能體的總數(shù)大于1,所述方法包括:
接收所述環(huán)境服務(wù)器發(fā)送的任意一個仿真環(huán)境包括的各個智能體的經(jīng)驗數(shù)據(jù);其中,每個智能體的經(jīng)驗數(shù)據(jù)包括:該智能體的狀態(tài)信息、所述環(huán)境服務(wù)器基于該智能體的狀態(tài)信息所確定的獎勵信息和該智能體所在的仿真環(huán)境的運行策略;
在所述經(jīng)驗數(shù)據(jù)的數(shù)據(jù)量不小于第一預(yù)設(shè)數(shù)據(jù)量的情況下,將相關(guān)聯(lián)的智能體的經(jīng)驗數(shù)據(jù)進行混合,并將混合后的經(jīng)驗數(shù)據(jù)存儲于預(yù)設(shè)經(jīng)驗池中;
在所述預(yù)設(shè)經(jīng)驗池中的數(shù)據(jù)量達到第二預(yù)設(shè)數(shù)據(jù)量的情況下,從所述預(yù)設(shè)經(jīng)驗池獲取混合后的經(jīng)驗數(shù)據(jù)作為樣本數(shù)據(jù),并基于所述樣本數(shù)據(jù)觸發(fā)待訓(xùn)練強化學(xué)習(xí)模型的訓(xùn)練,得到輸出的預(yù)測運行策略信息;其中,所述預(yù)測運行策略信息包括所述環(huán)境服務(wù)器中對應(yīng)的仿真環(huán)境的預(yù)測運行策略;
將所述預(yù)測運行策略信息發(fā)送至所述環(huán)境服務(wù)器,以使:所述環(huán)境服務(wù)器中對應(yīng)的仿真環(huán)境執(zhí)行對應(yīng)的預(yù)測運行策略,并在執(zhí)行完所述預(yù)測運行策略向所述中心訓(xùn)練服務(wù)器發(fā)送各個仿真環(huán)境的狀態(tài)信息;
接收所述環(huán)境服務(wù)器發(fā)送的各個仿真環(huán)境的狀態(tài)信息,并基于所述各個仿真環(huán)境的狀態(tài)信息,確定是否達到預(yù)設(shè)的模型訓(xùn)練結(jié)束條件;
如果達到預(yù)設(shè)的模型訓(xùn)練結(jié)束條件,將當(dāng)前的待訓(xùn)練強化學(xué)習(xí)模型確定為訓(xùn)練得到的目標(biāo)強化學(xué)習(xí)模型訓(xùn)練;
如果未達到預(yù)設(shè)的模型訓(xùn)練結(jié)束條件,返回所述接收所述環(huán)境服務(wù)器發(fā)送的任意一個仿真環(huán)境包括的各個智能體的經(jīng)驗數(shù)據(jù)的步驟。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述各個仿真環(huán)境的狀態(tài)信息,確定是否達到預(yù)設(shè)的模型訓(xùn)練結(jié)束條件,包括:
基于所述各個仿真環(huán)境的狀態(tài)信息,確定所述環(huán)境服務(wù)器中各個仿真環(huán)境的是否均運行完成預(yù)設(shè)次數(shù);
如果所述環(huán)境服務(wù)器中各個仿真環(huán)境均運行完成預(yù)設(shè)次數(shù),確定達到預(yù)設(shè)的模型訓(xùn)練結(jié)束條件。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述在所述經(jīng)驗數(shù)據(jù)的數(shù)據(jù)量不小于第一預(yù)設(shè)數(shù)據(jù)量的情況下,將相關(guān)聯(lián)的智能體的經(jīng)驗數(shù)據(jù)進行混合,并將混合后的經(jīng)驗數(shù)據(jù)存儲于預(yù)設(shè)經(jīng)驗池中,包括:
從所述環(huán)境服務(wù)器獲取各個智能體之間的關(guān)聯(lián)關(guān)系;
在所述經(jīng)驗數(shù)據(jù)的數(shù)據(jù)量不小于第一預(yù)設(shè)數(shù)據(jù)量的情況下,針對每個智能體,根據(jù)所述關(guān)聯(lián)關(guān)系,將與該智能體相關(guān)聯(lián)的智能體的經(jīng)驗數(shù)據(jù)和該智能體的經(jīng)驗數(shù)據(jù)進行混合,得到混合經(jīng)驗數(shù)據(jù),并存儲于該智能體對應(yīng)的預(yù)設(shè)經(jīng)驗池中。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述接收所述環(huán)境服務(wù)器發(fā)送的任意一個仿真環(huán)境包括的各個智能體的經(jīng)驗數(shù)據(jù)之前,還包括:
獲取各個所述環(huán)境服務(wù)器的配置信息;
基于所述配置信息選取待配置環(huán)境服務(wù)器;
基于該待配置環(huán)境服務(wù)器的配置信息,創(chuàng)建所述中心訓(xùn)練服務(wù)器與該待配置環(huán)境服務(wù)器之間的SSH連接;
通過SSH連接向該待配置環(huán)境服務(wù)器發(fā)送仿真環(huán)境啟動指令,以使該待配置環(huán)境服務(wù)器執(zhí)行根據(jù)所述環(huán)境啟動指令啟動一個仿真環(huán)境,并在該仿真環(huán)境啟動后所述中心訓(xùn)練服務(wù)器返回該仿真環(huán)境對應(yīng)的傳輸端口信息的步驟;
基于所述傳輸端口信息,創(chuàng)建所述中心訓(xùn)練服務(wù)器與該仿真環(huán)境之間的信息傳輸通道,并更新該待配置環(huán)境服務(wù)器中運行的仿真環(huán)境的數(shù)量;
如果該待配置環(huán)境服務(wù)器中運行的仿真環(huán)境的數(shù)量未達到該待配置環(huán)境服務(wù)器對應(yīng)的限制環(huán)境數(shù)量,返回執(zhí)行所述通過SSH連接向該待配置環(huán)境服務(wù)器發(fā)送仿真環(huán)境啟動指令的步驟;否則,停止針對該待配置環(huán)境服務(wù)器創(chuàng)建仿真環(huán)境,并針對剩余的環(huán)境服務(wù)器返回執(zhí)行所述基于所述配置信息選取待配置環(huán)境服務(wù)器的步驟,直至每個環(huán)境服務(wù)器中運行的仿真環(huán)境的數(shù)量均達到該環(huán)境服務(wù)器對應(yīng)的限制環(huán)境數(shù)量。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述接收所述環(huán)境服務(wù)器發(fā)送的任意一個仿真環(huán)境包括的各個智能體的經(jīng)驗數(shù)據(jù),包括:
通過所述環(huán)境服務(wù)器中各個仿真環(huán)境與所述中心訓(xùn)練服務(wù)器之間的信息傳輸通道,接收所述環(huán)境服務(wù)器發(fā)送的任意一個仿真環(huán)境包括的各個智能體的經(jīng)驗數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州海康威視數(shù)字技術(shù)股份有限公司,未經(jīng)杭州海康威視數(shù)字技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111326221.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種VOC氣體采集凈化裝置
- 下一篇:一種船用液壓舵機加工用專用裝配工裝
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





