[發(fā)明專利]基于云原生的強化學(xué)習(xí)流水線方法、系統(tǒng)、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202210101566.8 | 申請日: | 2022-01-27 |
| 公開(公告)號: | CN114429210A | 公開(公告)日: | 2022-05-03 |
| 發(fā)明(設(shè)計)人: | 趙加坤;徐彥愽 | 申請(專利權(quán))人: | 西安交通大學(xué) |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/10;G06N3/04;G06N5/04;G06F9/54;G06F11/30;G06F11/32 |
| 代理公司: | 西安通大專利代理有限責(zé)任公司 61200 | 代理人: | 張宇鴿 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 原生 強化 學(xué)習(xí) 流水線 方法 系統(tǒng) 設(shè)備 存儲 介質(zhì) | ||
本發(fā)明公開一種基于云原生的強化學(xué)習(xí)流水線方法、系統(tǒng)、設(shè)備及存儲介質(zhì);包括:基于系統(tǒng)框架和數(shù)據(jù)序列化協(xié)議,構(gòu)建云原生存儲系統(tǒng);對原始數(shù)據(jù)集進(jìn)行預(yù)處理,并將預(yù)處理的數(shù)據(jù)集存儲至云原生存儲系統(tǒng);啟動強化學(xué)習(xí)智能體和強化學(xué)習(xí)環(huán)境進(jìn)行交互,產(chǎn)生軌跡數(shù)據(jù),存儲到軌跡緩存池,并構(gòu)建強化學(xué)習(xí)自有數(shù)據(jù)集;調(diào)用軌跡緩存池的軌跡數(shù)據(jù),更新強化學(xué)習(xí)智能體模型;保存更新完成的強化學(xué)習(xí)智能體模型到云原生存儲系統(tǒng)中,構(gòu)建模型推理服務(wù);基于訓(xùn)練過程中的訓(xùn)練日志,構(gòu)建日志可視化微服務(wù),實時反饋智能體訓(xùn)練結(jié)果,并將結(jié)果保存到云原生存儲系統(tǒng)。本發(fā)明能夠提高決策分析場景中分布式訓(xùn)練、循環(huán)運行和云原生部署的可靠性、簡便性和實用性。
技術(shù)領(lǐng)域
本發(fā)明屬于強化學(xué)習(xí)領(lǐng)域,涉及一種基于云原生的強化學(xué)習(xí)流水線方法、系統(tǒng)、設(shè)備及存儲介質(zhì)。
背景技術(shù)
隨著云原生技術(shù)的不斷成熟和人工智能技術(shù)的不斷進(jìn)步,基于云原生的應(yīng)用如雨后春筍般爆發(fā)式增長,由此同時決策智能進(jìn)入高速發(fā)展的時代,強化學(xué)習(xí)算法由小作坊形式轉(zhuǎn)變?yōu)榇笠?guī)模流程化形式,增加決策智能的應(yīng)用場景,釋放新興領(lǐng)域的潛在價值。
面向人工智能應(yīng)用,機器學(xué)習(xí)系統(tǒng)可表示為端到端的流水線系統(tǒng),端到端是以大量的數(shù)據(jù)樣本和模型為基礎(chǔ),直接連接輸入和輸出,流水線系統(tǒng)不只是串行的系統(tǒng),也可以是分布式、并行、循環(huán)的系統(tǒng)。AIOps可以幫助人工智能應(yīng)用快速連接上下游,快速部署并進(jìn)行實驗,已經(jīng)得到了廣泛關(guān)注,經(jīng)過近幾年發(fā)展與演變,機器學(xué)習(xí)流水線已經(jīng)比較成熟,但是對于強化學(xué)習(xí)流水線依然存在較多問題。
傳統(tǒng)的強化學(xué)習(xí)應(yīng)用多表示為點對點設(shè)計的專家系統(tǒng),由特定的模擬環(huán)境和相匹配的強化學(xué)習(xí)算法組成,其中特定模擬環(huán)境針對運行環(huán)境配置、組成等要求不一,沒有接入統(tǒng)一標(biāo)準(zhǔn),強化學(xué)習(xí)算法開發(fā)調(diào)試難度較大,新算法接入難度較大,服務(wù)部署困難。典型的流水線處理流程設(shè)計多個階段,包括多種類型的數(shù)據(jù)存儲、數(shù)據(jù)預(yù)處理、特征工程、算法選擇、模型存儲、模型部署等,針對強化學(xué)習(xí)應(yīng)用來說,要多幾個階段,包括強化學(xué)習(xí)模擬環(huán)境運行、軌跡數(shù)據(jù)緩存、運行結(jié)果實時查看,以及模擬環(huán)境和算法需要循環(huán)運行和交互。另外,服務(wù)部署均在本地或者本地與云分散部署,面臨彈性伸縮困難,服務(wù)遷移困難的問題。因此,需要研究高效的、分布式的、云原生的強化學(xué)習(xí)流水線,支持全流程的決策分析場景。
面向上述需求,已有的相關(guān)工作支持還不夠完善。SparkML流水線基于Spark計算引擎實現(xiàn),需要將數(shù)據(jù)先轉(zhuǎn)化為RDD形式再進(jìn)行計算,可以使用自帶的mllib庫中的機器學(xué)習(xí)算法,也可以自己構(gòu)建數(shù)據(jù)分析任務(wù)的各個模塊,對于強化學(xué)習(xí)支持較少。分布式計算框架Ray,其上層實現(xiàn)了Tune超參搜索庫、RLlib強化學(xué)習(xí)庫、RaySGD分布式訓(xùn)練庫、Serve彈性服務(wù)庫,框架相較于SparkML完善并且適合新人使用,適配了較多主流的強化學(xué)習(xí)算法,但是框架功能耦合過多、封裝過于笨重,適配新算法和新環(huán)境較困難,框架本身沒有實現(xiàn)將強化學(xué)習(xí)全流程連接起來,形成完整的流水線系統(tǒng)。強化學(xué)習(xí)庫天授實現(xiàn)簡潔、模塊化組合、接口靈活,但是僅作為強化學(xué)習(xí)算法庫使用,上下游服務(wù)以及云原生部署工作量較大,同時需要自行實現(xiàn)分布式適配。ApacheAirflow流水線支持較完善,支持長時間任務(wù)執(zhí)行,流程可視化較好,能保證事件不丟失和狀態(tài)持久化,但是是以PythonDAG有向無環(huán)圖形式描述,缺少循環(huán)能力,另外延遲較高,運維成本較大。除此之外,其他強化學(xué)習(xí)流水線系統(tǒng)過于專注特定問題,不能很好完成通用的決策分析場景。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決現(xiàn)有技術(shù)中的問題,提供一種基于云原生的強化學(xué)習(xí)流水線方法、系統(tǒng)、設(shè)備及存儲介質(zhì),能夠通過構(gòu)建強化學(xué)習(xí)流水線,提高決策分析場景中分布式訓(xùn)練、循環(huán)運行和云原生部署的可靠性、簡便性和實用性。
為達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案予以實現(xiàn):
一種基于云原生的強化學(xué)習(xí)流水線方法,包括:
基于系統(tǒng)框架和數(shù)據(jù)序列化協(xié)議,構(gòu)建云原生存儲系統(tǒng);
對原始數(shù)據(jù)集進(jìn)行預(yù)處理,并將預(yù)處理的數(shù)據(jù)集存儲至云原生存儲系統(tǒng);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學(xué),未經(jīng)西安交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210101566.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





