[發明專利]基于云原生的強化學習流水線方法、系統、設備及存儲介質在審
| 申請號: | 202210101566.8 | 申請日: | 2022-01-27 |
| 公開(公告)號: | CN114429210A | 公開(公告)日: | 2022-05-03 |
| 發明(設計)人: | 趙加坤;徐彥愽 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/10;G06N3/04;G06N5/04;G06F9/54;G06F11/30;G06F11/32 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 張宇鴿 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 原生 強化 學習 流水線 方法 系統 設備 存儲 介質 | ||
1.一種基于云原生的強化學習流水線方法,其特征在于,包括:
基于系統框架和數據序列化協議,構建云原生存儲系統;
對原始數據集進行預處理,并將預處理的數據集存儲至云原生存儲系統;
基于分布式框架,構建強化學習環境和強化學習智能體;
啟動強化學習智能體和強化學習環境進行交互,產生軌跡數據,存儲到軌跡緩存池,并構建強化學習自有數據集,調用軌跡緩存池的軌跡數據,更新強化學習智能體模型;
保存更新完成的強化學習智能體模型到云原生存儲系統中,構建模型推理服務;
基于訓練過程中的訓練日志,應用可視化工具,構建日志可視化微服務,實時反饋智能體訓練結果,并將最終結果保存到云原生存儲系統。
2.根據權利要求1所述的基于云原生的強化學習流水線方法,其特征在于,所述基于系統框架和數據序列化協議,構建云原生存儲系統,具體為:
基于Golang為編程語言,使用微服務框架Go-microv2、Web框架Gin、RPC框架GRPC和數據序列化協議Protobuf,以微服務范式進行編寫,構建云原生存儲系統。
3.根據權利要求1所述的基于云原生的強化學習流水線方法,其特征在于,所述對原始數據集進行預處理包括:
對原始數據集進行數據清洗、特征抽取和特征各項指標數據分析,支持導出若干種格式的數據,對處理后的數據再入云原生存儲系統中。
4.根據權利要求1所述的基于云原生的強化學習流水線方法,其特征在于,所述強化學習智能體和強化學習環境進行交互,調用軌跡緩存池的軌跡數據,更新強化學習智能體模型,具體為:
運行若干個強化學習環境來收集軌跡數據并存儲到軌跡緩存池中,強化學習智能體分為強化學習智能體Actor網絡和強化學習智能體Learner網絡,強化學習智能體中的Learner網絡從軌跡緩存池中采樣數據,更新模型參數,將更新后的模型參數同步到強化學習智能體中的Actor網絡,每個強化學習智能體Actor網絡對應若干個強化學習環境進行交互。
5.根據權利要求1所述的基于云原生的強化學習流水線方法,其特征在于,所述構建強化學習自有數據集,具體為:設定定時任務,定期將將軌跡緩存池中的軌跡數據進行持久化處理,存儲到內存緩存數據庫和云原生存儲系統中,形成強化學習自有數據集。
6.根據權利要求5所述的基于云原生的強化學習流水線方法,其特征在于,還包括前一輪的強化學習自有數據集,將前一輪的強化學習自有數據集中的軌跡數據直接送入強化學習階段進行算法模型訓練,而不需要啟動強化學習環境。
7.根據權利要求1所述的基于云原生的強化學習流水線方法,其特征在于,所述保存更新完成的強化學習智能體模型到云原生存儲系統中,構建模型推理服務,具體為:基于FastAPI的RayServe框架開發模型推理服務,通過調用API方式訪問推理服務;
所述基于訓練過程中的訓練日志,應用可視化工具,構建日志可視化微服務,實時反饋智能體訓練結果,并將最終結果保存到云原生存儲系統,具體為:
使用TensorBoard可視化工具,指定訓練日志輸出目錄,實時更新訓練過程,掌握訓練變化數據;同時在訓練完成后將訓練日志輸出目錄打包壓縮后,上傳到云原生存儲系統中進行存儲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210101566.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:護角分垛定位機構、包裝貼標系統
- 下一篇:顯示面板及其制備方法、顯示裝置





