[發明專利]一種智能體的強化學習模型訓練方法及系統在審
| 申請號: | 202111326221.4 | 申請日: | 2021-11-10 |
| 公開(公告)號: | CN114117752A | 公開(公告)日: | 2022-03-01 |
| 發明(設計)人: | 王正偉 | 申請(專利權)人: | 杭州海康威視數字技術股份有限公司 |
| 主分類號: | G06F30/20 | 分類號: | G06F30/20;G06N20/00 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 項京;高鶯然 |
| 地址: | 310051 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 強化 學習 模型 訓練 方法 系統 | ||
本發明實施例提供了一種智能體的強化學習模型訓練方法及系統,上述方法包括:接收所述環境服務器發送的任意一個仿真環境包括的各個智能體的經驗數據;將相關聯的智能體的經驗數據進行混合并存儲于預設經驗池中;獲取混合后的經驗數據作為樣本數據,并基于所述樣本數據觸發待訓練強化學習模型的訓練,得到輸出的預測運行策略信息;將所述預測運行策略信息發送至所述環境服務器,以使所述環境服務器中對應的仿真環境執行對應的預測運行策略;如果達到預設的模型訓練結束條件,將當前的待訓練強化學習模型確定為訓練得到的目標強化學習模型訓練。即本發明實施例提出了一種新的支持多智能體、多仿真環境的高效的強化學習模型訓練框架。
技術領域
本發明涉及機器學習技術領域,特別是涉及一種智能體的強化學習模型訓練方法及系統。
背景技術
強化學習是機器學習的范式和方法論之一,可以用于描述和解決智能體在與環境的交互過程中如何通過學習策略達成回報最大化或實現特定目標的問題。其中,智能體是指具有自治性、社會性、反應性和預動性等基本特性的軟件程序或者一個實體(如人、車輛或機器人等)。智能體可以被嵌入到環境中,通過傳感器感知環境,然后通過效應器自治地作用于環境。
傳統的強化學習模型訓練方法為:單個智能體通過多組分布式采樣機采集仿真環境實例數據庫中的多組環境案例,基于采集的多組環境案例與服務端之間進行信息交互,輸出對應環境案例的軌跡數據。然后服務端再通過強化學習算法模塊初始化該智能體。
然而,傳統的強化學習模型訓練方法僅能實現單智能體的強化學習模型訓練,其并未給出任何支持多個智能體的訓練方法。
發明內容
本發明實施例的目的在于提供一種智能體的強化學習模型訓練方法及系統,以實現多個智能體的強化學習模型訓練。
第一方面,本發明實施例提供了一種智能體的強化學習模型訓練方法,應用于強化學習模型訓練系統中的中心訓練服務器,所述系統還包括至少一個環境服務器,每個所述環境服務器運行至少一個仿真環境,每個仿真環境包括至少一個智能體,智能體的總數大于1,所述方法包括:
接收所述環境服務器發送的任意一個仿真環境包括的各個智能體的經驗數據;其中,每個智能體的經驗數據包括:該智能體的狀態信息、所述環境服務器基于該智能體的狀態信息所確定的獎勵信息和該智能體所在的仿真環境的運行策略;
在所述經驗數據的數據量不小于第一預設數據量的情況下,將相關聯的智能體的經驗數據進行混合,并將混合后的經驗數據存儲于預設經驗池中;
在所述預設經驗池中的數據量達到第二預設數據量的情況下,從所述預設經驗池獲取混合后的經驗數據作為樣本數據,并基于所述樣本數據觸發待訓練強化學習模型的訓練,得到輸出的預測運行策略信息;其中,所述預測運行策略信息包括所述環境服務器中對應的仿真環境的預測運行策略;
將所述預測運行策略信息發送至所述環境服務器,以使:所述環境服務器中對應的仿真環境執行對應的預測運行策略,并在執行完所述預測運行策略向所述中心訓練服務器發送各個仿真環境的狀態信息;
接收所述環境服務器發送的各個仿真環境的狀態信息,并基于所述各個仿真環境的狀態信息,確定是否達到預設的模型訓練結束條件;
如果達到預設的模型訓練結束條件,將當前的待訓練強化學習模型確定為訓練得到的目標強化學習模型訓練;
如果未達到預設的模型訓練結束條件,返回所述接收所述環境服務器發送的任意一個仿真環境包括的各個智能體的經驗數據的步驟。
可選的,所述基于所述各個仿真環境的狀態信息,確定是否達到預設的模型訓練結束條件,包括:
基于所述各個仿真環境的狀態信息,確定所述環境服務器中各個仿真環境的是否均運行完成預設次數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州海康威視數字技術股份有限公司,未經杭州海康威視數字技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111326221.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種VOC氣體采集凈化裝置
- 下一篇:一種船用液壓舵機加工用專用裝配工裝





