[發明專利]執行機器學習流程的方法及系統有效
| 申請號: | 201910283460.2 | 申請日: | 2016-12-06 |
| 公開(公告)號: | CN109993316B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 欒淑君;楊慧斌;孫迪 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F3/0484;G06F16/904 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 曾世驍;張川緒 |
| 地址: | 100085 北京市海淀區上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 執行 機器 學習 流程 方法 系統 | ||
提供了一種執行機器學習流程的方法及系統,所述方法包括:(A)向用戶展示用于配置機器學習任務的圖形界面并檢測用戶通過圖形界面執行的輸入操作,其中,機器學習任務用于執行機器學習流程所包括的數據處理;(B)根據檢測到的用戶通過所述圖形界面執行的輸入操作來配置所述機器學習任務;以及(C)在不執行配置的所述機器學習任務的情況下,推斷與所述機器學習任務有關的數據屬性信息,其中,數據屬性信息包括數據屬性字段的名稱和/或數據類型。相應地,能夠花費較少資源和時間而有效地得到機器學習流程中各個階段的數據屬性信息,從而改善機器學習工具的可操作性。
本申請是申請日為2016年12月6日、申請號為201611113470.4、題為“執行機器學習流程的方法及系統”的專利申請的分案申請。
技術領域
本發明總體說來涉及人工智能領域,更具體地說,涉及一種執行機器學習流程的方法及系統。
背景技術
隨著海量數據的出現,人工智能技術得到了迅速發展,其中,機器學習技術普遍被用于從海量的數據記錄(例如,金融數據、互聯網數據等)中挖掘出有益的價值,
然而,人工智能技術應用的一大難題在于缺少有效易用的機器學習工具,很多現有的機器學習平臺都僅面向精通機器學習技術的使用者,并且,由于機器學習往往所針對的是海量復雜數據和復雜數據運算,因此,即便是精通機器學習技術的使用者也難以有效地操作目前的機器學習工具。實際上,要想培養出精通機器學習的技術專家,需要花費大量的時間和精力,這使得人工智能技術的應用存在較高的人才門檻。另一方面,機器學習模型的預測效果與模型的選擇、可用的數據和特征的提取等都有關系,例如,在確定特征提取方式的過程中,往往不僅需要掌握機器學習的技術知識,還需要對實際預測問題有深入的理解,而預測問題往往結合著不同行業的不同實踐經驗,導致很難僅依靠技術專家來達到滿意的機器學習效果。可以看出,機器學習工具需要在操作性上有所改進,以幫助不同用戶更好地執行機器學習流程。
作為示例,Azure?Machine?Learning(簡稱“AML”)是微軟在其公有云Azure上推出的基于Web使用的一項機器學習服務,該產品的目標是簡化使用機器學習的過程,以便于開發人員、業務分析師和數據科學家進行廣泛、便捷地應用。
在AML中,用戶可通過DAG(有向無環圖)來完成機器學習流程中各個機器學習任務(例如,數據導入、數據格式轉換、數據變換、特征抽取、模型訓練等)的配置,其中,在用戶選擇運行DAG中的特定頂點之后,該頂點所代表的機器學習任務將被執行,并且,作為執行結果而得到的數據的字段名稱被顯示在屏幕上。
具體說來,參照圖1A,在AML中建立的機器學習流程可包括諸如成人調查收入表的導入(Adult?Census?Income?Binary)、選擇數據集中的列(Select?Columns?in?Dataset)和清理丟失數據(Clean?Missing?Data)等機器學習任務,其中,在完成了對“選擇數據集中的列”的配置之后,可開始配置下游機器學習任務“清理丟失數據”。
然而,如圖1B中所示,由于之前的“選擇數據集中的列”這一任務沒有執行,所以無法按照字段名稱來配置“清理丟失數據”,相應地,在屏幕上顯示了提醒消息“將在執行實驗之后啟用基于名稱的列選擇(Name-based?column?selection?will?be?enabled?afterrunning?the?experiment)”。
在圖1C中,可以看出,通過點擊屏幕下方的“RUN”而實際執行了機器學習任務“選擇數據集中的列”。相應地,在圖1D中,下游機器學習任務“清理丟失數據”變得能夠基于名稱來進行相應的配置。
可以看出,在AML中,在配置機器學習流程的過程中,用戶無法預先了解到任何關于經過各個機器學習任務處理后所得到的數據字段的信息,只有在相應機器學習任務被實際執行之后,才能知曉結果數據的字段名稱。然而,由于機器學習過程常常涉及海量數據,執行機器學習任務將花費大量的時間和計算資源,這使得無法及時有效地獲取或利用各階段的數據屬性信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910283460.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據處理方法、裝置及電子設備
- 下一篇:一種計算機機房運維管理系統及方法





