[發明專利]一種方便數據分析人員使用的集成機器學習的方法及系統在審
| 申請號: | 201711393846.6 | 申請日: | 2017-12-21 |
| 公開(公告)號: | CN108363714A | 公開(公告)日: | 2018-08-03 |
| 發明(設計)人: | 李雪鵬;翟昶;于上上;馮博;毛智愚 | 申請(專利權)人: | 北京至信普林科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62;G06N99/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100094 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器學習 集成機器 人員使用 數據分析 建模 自然語言處理模塊 機器學習技術 模型處理模塊 數據處理模塊 特征處理模塊 自然語言處理 模型融合 模型訓練 模型應用 模型優化 數據清洗 數據探索 特征提取 特征選擇 解釋性 采樣 算法 樣本 工程師 愛好 學習 老師 學生 統一 | ||
本發明涉及機器學習技術領域,特別涉及一種方便數據分析人員使用的集成機器學習的方法及系統。所述方法包括以下步驟:(1)數據探索;(2)數據清洗;(3)特征提取;(4)特征選擇;(5)樣本采樣;(6)模型訓練;(7)模型優化;(8)模型融合;(9)模型可解釋性;(10)自然語言處理。所述系統包含數據處理模塊、特征處理模塊、模型處理模塊和自然語言處理模塊。本發明為機器學習工程師、學生、老師以及機器學習愛好著提供統一的算法建模流程,用20%的精力完成建模流程,把80%的精力放在對業務的理解和對模型應用上,深度理解業務,更好的實現業務人員對于模型的要求。
技術領域
本發明涉及機器學習技術領域,特別涉及一種方便數據分析人員使用的集成機器學習的方法及系統。
背景技術
大數據建模的行業痛點有兩個,第一,數據清洗任務繁重且機械,包括數據清洗工作任務重、時間緊張。不同項目的數據清洗功能代碼難以復用。第二,建模流程繁瑣,包括“建模-評估-調參-評估”的流程耗時并且繁瑣。模型融合過程復雜繁瑣。傳統的機器學習開發人員只用20%的時間理解業務,卻把80%的精力用于對數據的清洗、模型的調參等建模工作上,最終模型與業務期望往往差別較大。所有市場上急需推出一款產品,幫助機器學習開發人員簡化建模流程,把更多的時間用于業務的理解上,提高工程開發的效率。
發明內容
針對背景技術中的問題,本發明的目的在于提出一種方便數據分析人員使用的集成機器學習的方法及系統。本發明從數據探索、數據清洗、模型建立、模型融合4大點來展示和設計該工具,為機器學習工程師、學生、老師以及機器學習愛好著提供統一的算法建模流程,用20%的精力完成建模流程,把80%的精力放在對業務的理解和對模型應用上,深度理解業務,更好的實現業務人員對于模型的要求。
為實現上述目的,本發明提出如下技術方案:
一種方便數據分析人員使用的集成機器學習的方法,其特征在于:所述方法包括以下步驟:
(1)數據探索:針對原始數據表,輸出各個字段的情況;指定目標字段及特定分析字段列表,輸出各個字段與目標字段的關聯分析結果;針對原始數據表,提供離群樣本檢測模板,輸出潛在的離群樣本點;針對原始數據表,提供二維組合特征探索分析模板,輸出潛在的二維特征組合及組合方式;
(2)數據清洗:針對原始數據表,提供常規的數據清洗模板;
(3)特征提?。横槍麈I的數據集,含主鍵的時間序列,蘊含時間先后的記錄;
(4)特征選擇:使用特征向量和目標值共同決定保留最重要的特征維度。
(5)樣本采樣:針對原始數據表,按照一定正負樣本比例,進行降采樣或者過采樣或按照主鍵進行采樣;
(6)模型訓練:單一模型的訓練及測試過程模板,輸出訓練時長、各項評估指標的值、PR曲線、ROC曲線、重要特征分析、過擬合判斷,模型生成報告,輸出進度條并預估時間;
(7)模型優化:對多個模型、多個參數列表,進行訓練,針對指定的評估指標,選擇出最優的模型參數;
(8)模型融合:提供不同樣本子集、不同特征集合訓練的模型融合工具包;
(9)模型可解釋性:通過模型結果的可視化分析、模型結果中組合特征分析等,輸出模型解釋性信息;
(10)自然語言處理:對語言文字進行分析,統計詞頻,分析語義。
進一步地,所述步驟(1)的具體過程如下:
首先加載原始數據,第二步進行缺失值分析,之后依次進行異常值分析,數據分布統計,最后根據之前分析結果,自動生成word版本的結果報告。
進一步地,所述步驟(8)的具體過程如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京至信普林科技有限公司,未經北京至信普林科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711393846.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:視頻圖像信息解析裝置、系統及方法
- 下一篇:一種車牌圖片管理方法和裝置





