[發明專利]用于執行機器學習過程的方法和系統在審
| 申請號: | 201910594231.2 | 申請日: | 2019-07-03 |
| 公開(公告)號: | CN110766164A | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 王敏;李瀚;喬勝傳;陶雪軍;孫越;唐繼正;徐昀 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 11442 北京博雅睿泉專利代理事務所(特殊普通合伙) | 代理人: | 馬鐵良;柳巖 |
| 地址: | 100085 北京市海淀區上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 預測數據 機器學習模型 訓練樣本 預測服務 配置的 更新 服務提供單元 機器學習過程 結果收集單元 數據收集單元 結果生成 模型更新 模型應用 預測結果 在線預測 自動訓練 響應 服務 | ||
提供了一種用于執行機器學習過程的方法和系統,所述系統包括:數據收集單元,用于持續收集預測數據;真實結果收集單元,用于持續收集預測數據的真實結果;模型自動訓練單元,用于按照配置的模型更新方案,基于收集的預測數據及其對應的真實結果生成更新訓練樣本并利用更新訓練樣本持續得到更新的機器學習模型;以及服務提供單元,用于按照配置的模型應用方案從機器學習模型之中選擇用于提供在線預測服務的線上機器學習模型,并響應于包括預測數據的預測服務請求,利用線上機器學習模型針對包括在預測服務請求中的預測數據提供預測結果。
技術領域
本申請總體說來涉及人工智能領域,更具體地講,涉及一種用于執行機器學習過程的方法和系統。
背景技術
隨著海量數據的出現,人工智能技術迅速發展,而機器學習是人工智能發展到一定階段的必然產物,其致力于通過計算的手段,從大量數據中挖掘有價值的潛在信息。在計算機系統中,通過機器學習算法,可從歷史數據中產生“模型”,也就是說,將歷史數據提供給機器學習算法,就能基于這些歷史數據進行建模來獲得機器學習模型。
然而,在機器學習過程中,涉及數據、特征、算法、參數調優等諸多環節的處理,這都需要大量機器學習知識與經驗;此外,如何在實踐中利用訓練好的模型來提供預測服務,也需要耗費大量的人工成本。上述各個環節都使得應用機器學習技術的門檻極高。即使已經存在了一些用于進行機器學習建模的平臺產品,但現有的機器學習平臺都僅注重于完成機器學習模型的調研,即,僅能完成如何基于積累的歷史數據訓練出一個機器學習模型,而無法有效地實現機器學習模型的后續生產和應用(例如,難以利用機器學習模型提供在線服務),換句話說,現有技術存在建模方案或成果與模型應用過程之間割裂嚴重的問題。
發明內容
本公開的示例性實施例在于提供一種用于執行機器學習過程的方法和系統,以至少解決現有技術存在的上述問題。
根據本公開的第一方面,提供一種用于執行機器學習過程的系統,其包括:
數據收集單元,用于持續收集預測數據;真實結果收集單元,用于持續收集預測數據的真實結果;模型自動訓練單元,用于按照配置的模型更新方案,基于收集的預測數據及其對應的真實結果生成更新訓練樣本并利用更新訓練樣本持續得到更新的機器學習模型;以及服務提供單元,用于按照配置的模型應用方案從機器學習模型之中選擇用于提供在線預測服務的線上機器學習模型,并響應于包括預測數據的預測服務請求,利用線上機器學習模型針對包括在預測服務請求中的預測數據提供預測結果。
可選地,服務提供單元可自動保存包括在預測服務請求中的預測數據,并且數據收集單元可持續從服務提供單元收集預測數據。
可選地,數據收集單元還可收集歷史數據,真實結果收集單元還可收集歷史數據的真實結果,模型自動訓練單元還可根據自動機器學習技術,基于收集的歷史數據及其對應的真實結果生成初始訓練樣本并利用初始訓練樣本訓練出初始機器學習模型,并且,在初始機器學習模型的基礎上,按照配置的模型更新方案來利用更新訓練樣本持續得到更新的機器學習模型。
可選地,模型自動訓練單元可在訓練出初始機器學習模型的模型訓練方案基礎上生成配置的模型更新方案。
可選地,自動機器學習技術可涉及以下項中的至少一項:用于將歷史數據拆分為訓練數據和驗證數據的自動數據拆分、用于按照數據字段類型和/或數據分布對訓練數據和驗證數據進行特征抽取的自動特征生成、用于按照特征重要性來確定組合特征的自動特征組合、用于按照預設調參方式進行參數調優的自動調參、用于根據預測效果來確定由一個或多個訓練出的模型來提供預測結果的模型自動選擇、以及根據預設規則對資源的自動配置。
可選地,模型自動訓練單元得到的機器學習模型所對應的模型文件的元數據中可包括相應的特征抽取過程信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910594231.2/2.html,轉載請聲明來源鉆瓜專利網。





