[發明專利]執行自動機器學習過程的方法、裝置及設備在審
| 申請號: | 202010307807.5 | 申請日: | 2020-04-17 |
| 公開(公告)號: | CN111611240A | 公開(公告)日: | 2020-09-01 |
| 發明(設計)人: | 呂自薈;王昱森;岳凌;郭夏瑋;郭朕;張宇;谷宇晨 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/25;G06K9/62;G06N20/00 |
| 代理公司: | 北京博雅睿泉專利代理事務所(特殊普通合伙) 11442 | 代理人: | 馬鐵良 |
| 地址: | 100085 北京市海淀區上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 執行 自動 機器 學習 過程 方法 裝置 設備 | ||
本公開提出了一種執行自動機器學習過程的方法、裝置及設備,該方法包括:提供相互獨立的模型訓練算子和模型預測算子;基于訓練數據,利用所述模型訓練算子來訓練機器學習模型;以及,利用所述模型預測算子和訓練出的所述機器學習模型,針對預測數據提供預測服務。
技術領域
本發明涉及人工智能領域,更具體地,涉及一種執行自動機器學習過程的方法、一種執行自動機器學習過程的裝置、一種包括至少一個計算裝置和至少一個存儲裝置的設備、及一種計算機可讀存儲介質。
背景技術
隨著機器學習技術的快速發展和應用,自動機器學習技術大大降低了機器學習的門檻,并且節省了機器學習的人力成本。然而,現有的自動機器學習工具功能過于簡單片面,不能覆蓋機器學習模型構建及應用的整個流程,即,僅能完成如何基于積累的歷史數據訓練出一個機器學習模型,而無法有效地實現機器學習模型的后續生產和應用(例如,難以利用機器學習模型提供在線服務),換句話說,現有技術存在建模方案或成果與模型應用過程之間割裂嚴重的問題;而且,其不具備用戶友好的交互方式,仍然要求用戶有一定的編程基礎才可使用,沒有做到真正的低門檻。
發明內容
本公開實施例的一個目的是提供一種自動執行機器學習過程的新的技術方案。
根據本公開的第一方面,提供了一種自動執行機器學習過程的方法,其包括:
提供相互獨立的模型訓練算子和模型預測算子;
基于訓練數據,利用所述模型訓練算子來訓練機器學習模型;以及,
利用所述模型預測算子和訓練出的所述機器學習模型,針對預測數據提供預測服務。
可選地,所述方法還包括獲得所述模型訓練算子的步驟,包括:
根據編輯所述模型訓練算子的操作,提供編輯界面;
獲取通過所述編輯界面輸入的算子內容,其中,所述算子內容包括對輸入的訓練數據進行數據預處理的操作命令、針對數據預處理后的訓練數據進行特征工程的操作命令、及根據特征工程的結果進行模型訓練的操作命令;
封裝所述算子內容,得到所述模型訓練算子。
可選地,所述基于訓練數據,利用所述模型訓練算子來訓練機器學習模型,包括:
響應于針對所述模型訓練算子的觸發操作,提供進行關于模型訓練的配置的配置界面;
根據通過所述配置界面輸入的配置信息,對所述訓練數據進行數據預處理和特征工程處理,獲得訓練樣本;
利用至少一種模型訓練算法,基于所述訓練樣本來訓練出機器學習模型。
可選地,所述配置界面包括以下至少一個配置項:機器學習模型的輸入源配置項、機器學習模型的適用問題類型配置項、訓練機器學習模型的算法模式配置項、機器學習模型的優化目標配置項、及機器學習模型的預測目標字段的字段名配置項。
可選地,所述對所述訓練數據進行數據預處理包括以下各項之中的至少一項:
第一項,對所述訓練數據進行數據類型轉換;
第二項,對所述訓練數據進行采樣;
第三項,將所述訓練數據標注為有標簽數據和無標簽數據;
第四項,自動識別所述訓練數據的數據字段類型;
第五項,對所述訓練數據進行缺失值填充;
第六項,對所述訓練數據中的初始時間字段進行解析,獲得并添加新的時間字段,且刪除所述初始時間字段;
第七項,自動識別所述訓練數據中的非數值數據,并對所述非數值數據進行哈希處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010307807.5/2.html,轉載請聲明來源鉆瓜專利網。





