[發明專利]一種可視化機器學習訓練模型的建模系統和方法在審
| 申請號: | 201710501660.1 | 申請日: | 2017-06-27 |
| 公開(公告)號: | CN107169575A | 公開(公告)日: | 2017-09-15 |
| 發明(設計)人: | 殷晉 | 申請(專利權)人: | 北京天機數測數據科技有限公司 |
| 主分類號: | G06N99/00 | 分類號: | G06N99/00;G06F9/50 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100125 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 可視化 機器 學習 訓練 模型 建模 系統 方法 | ||
技術領域
本發明屬于大數據機器學習技術領域,具體涉及一種可視化機器學習訓練器,主要用于幫助用戶實現快速的模型訓練。
背景技術
現有的機器學習模型的創建過程非常繁瑣,其創建過程通常包括:特征分析、模型訓練、模型驗證、模型調優、模型導出和模型加載。
其中,每個階段都需要獨立進行編碼,尤其是創建和分析過程非常繁瑣及耗時,需要數據分析師及工程師投入大量的時間。
另外,由于每個階段的交換數據格式不統一,導致模型訓練非常耗時,無法實現體系化結果驗證。
發明內容
為了解決現有技術的上述問題,本發明提供一種可視化機器學習訓練模型的建模方法,其可以實現高質量的機器學習建模,包括實現可視化的流程設計、可視化的模型驗證、可視化的查看中間結果,可以讓數據分析師在不進行編碼的情況下進行機器學習的訓練,可以加快模型的訓練。
本發明還提供一種可視化機器學習訓練模型的建模系統,其可以實現高質量的機器學習建模,包括實現可視化的流程設計、可視化的模型驗證、可視化的查看中間結果,可以讓數據分析師在不進行編碼的情況下進行機器學習的訓練,可以加快模型的訓練。
為了達到上述目的,本發明采用的主要技術方案包括:
一種可視化機器學習訓練模型的建模方法,其包括如下步驟:
S1、選擇預定的圖形化算法組件,并拖拽至設計區來建立圖形化算法組件中的算法之間的數據流向,以此生成流程描述語言;
S2、對流程描述語言進行解析,根據節點類名及屬性創建相應的學習組件,并生成相應的Spark學習管道;
S3、將學習管道提交到Spark集群上進行模型訓練。
借助上述方案,本發明的可視化機器學習訓練模型的建模方法,其可以實現高質量的機器學習建模,包括實現可視化的流程設計、可視化的模型驗證、可視化的中間結果查看,可以讓數據分析師在不進行編碼的情況下進行機器學習的訓練,可以顯著加快模型的訓練效率。
其中,步驟S1中,圖形化算法組件是將預定算法封裝形成的。例如,可以基于Canvas技術,采用SmartML(數據建模語言SmartML基于JSON格式書寫,包括在根下建立dataSource、query、mapping、outputTable、sql和partition六個子結點。其中,dataSource結點用于指出要抽取的數據從哪里來。較佳的,dataSource結點下定義有兩個子結點name和type,其中,name用于指出數據來源的名稱,type用于指出數據來源的類型。其中,query結點用于定義每種不同平臺數據產生和查詢的過程。其中,mapping結點用于定義當前來源數據抽取結果的輸出結構。較佳的,可以用于將從數據源里抽取數據的結構進行重新定義。其中,outputTable結點用于定義一種數據來源查詢結果的輸出表名稱。較佳的,數據表名稱定義后,可以作為接下來一個或幾個數據分析過程的輸入。其中,sql結點用于將不同數據來源抽取到的數據進行重新計算、關聯、分析并輸出。較佳的,sql的語法可以遵循Spark Sql的標準語法結構。其中,partition結點用于定義分區,根據數據特點和實際需要將數據集分布到Spark集群的一個或多個結點上。)將線性回歸算法、Logistic算法封裝為圖形化算法組件。
較佳的,圖形化算法組件內部隱藏有預定的操作邏輯。借此,達到將復雜的算法邏輯進行圖形化封裝簡化的效果。
其中,步驟S1中,還對圖形化算法組件進行相應的屬性設置。例如,對隨機森林算法的深度、最大特征、分類樹、采樣策略等屬性進行設置。
其中,步驟S1中,圖形化算法組件包括下列組件中的任一個或任幾個:
數據源組件,用于供用戶選用來在機器學習訓練模型中建立讀入數據用的數據讀取組件;
數據預處理組件,用于供用戶選用來在機器學習訓練模型中建立對數據進行預處理的數據預處理組件;
文本分析組件,用于供用戶選用來在機器學習訓練模型中建立用于文本分析的文本分析組件;
機器學習組件,用于供用戶選用來在機器學習訓練模型中建立用于機器學習的機器學習組件;
結果驗證組件,用于供用戶選用來在機器學習訓練模型中建立用于結果驗證的結果驗證組件。
其中,步驟S2中,學習組件是根據節點類名及屬性創建的。
其中,步驟S2中,Spark學習管道是根據節點的連接屬性生成的。
其中,步驟S3中,學習管道是依據Spark集群的資源利用情況提交到Spark集群上的。借此,提高訓練效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京天機數測數據科技有限公司,未經北京天機數測數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710501660.1/2.html,轉載請聲明來源鉆瓜專利網。





