[發明專利]一種方便數據分析人員使用的集成機器學習的方法及系統在審
| 申請號: | 201711393846.6 | 申請日: | 2017-12-21 |
| 公開(公告)號: | CN108363714A | 公開(公告)日: | 2018-08-03 |
| 發明(設計)人: | 李雪鵬;翟昶;于上上;馮博;毛智愚 | 申請(專利權)人: | 北京至信普林科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62;G06N99/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100094 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器學習 集成機器 人員使用 數據分析 建模 自然語言處理模塊 機器學習技術 模型處理模塊 數據處理模塊 特征處理模塊 自然語言處理 模型融合 模型訓練 模型應用 模型優化 數據清洗 數據探索 特征提取 特征選擇 解釋性 采樣 算法 樣本 工程師 愛好 學習 老師 學生 統一 | ||
1.一種方便數據分析人員使用的集成機器學習的方法,其特征在于:所述方法包括以下步驟:
(1)數據探索:針對原始數據表,輸出各個字段的情況;指定目標字段及特定分析字段列表,輸出各個字段與目標字段的關聯分析結果;針對原始數據表,提供離群樣本檢測模板,輸出潛在的離群樣本點;針對原始數據表,提供二維組合特征探索分析模板,輸出潛在的二維特征組合及組合方式;
(2)數據清洗:針對原始數據表,提供常規的數據清洗模板;
(3)特征提取:針對含主鍵的數據集,含主鍵的時間序列,蘊含時間先后的記錄;
(4)特征選擇:使用特征向量和目標值共同決定保留最重要的特征維度。
(5)樣本采樣:針對原始數據表,按照一定正負樣本比例,進行降采樣或者過采樣或按照主鍵進行采樣;
(6)模型訓練:單一模型的訓練及測試過程模板,輸出訓練時長、各項評估指標的值、PR曲線、ROC曲線、重要特征分析、過擬合判斷,模型生成報告,輸出進度條并預估時間;
(7)模型優化:對多個模型、多個參數列表,進行訓練,針對指定的評估指標,選擇出最優的模型參數;
(8)模型融合:提供不同樣本子集、不同特征集合訓練的模型融合工具包;
(9)模型可解釋性:通過模型結果的可視化分析、模型結果中組合特征分析等,輸出模型解釋性信息;
(10)自然語言處理:對語言文字進行分析,統計詞頻,分析語義。
2.根據權利要求1所述的一種方便數據分析人員使用的集成機器學習的方法,其特征在于:
所述步驟(1)的具體過程如下:
首先加載原始數據,第二步進行缺失值分析,之后依次進行異常值分析,數據分布統計,最后根據之前分析結果,自動生成word版本的結果報告。
3.根據權利要求1所述的一種方便數據分析人員使用的集成機器學習的方法,其特征在于:
所述步驟(8)的具體過程如下:
首先讀取數據,進行數據清洗以及特征選擇后,使用多種模型,對數據集依次進行建模,并保存所有建模結果;之后對各模型的結果進行處理,進行投票或是堆棧法進行模型融合,最后輸出最優結果。
4.根據權利要求1所述的一種方便數據分析人員使用的集成機器學習的方法,其特征在于:
所述步驟(9)的具體過程如下:
加載數據并對數據進行建模處理,之后對建模結果進行展示,然后分析各項特征的權重,最后輸出原因報告。
5.一種方便數據分析人員使用的集成機器學習的系統,其特征在于:
所述系統包含數據處理模塊、特征處理模塊、模型處理模塊和自然語言處理模塊;
所述數據處理模塊用于對原始數據集進行統計性的分析,以達到直觀表現數據集的整體情況的功能,并對其中影響建模結果的數據進行處理;
所述特征處理模塊用于對原始數據進行加工,創建模型可以識別的特征數據;并對創造的特征進行篩選,剔除相關性較小的特征,以提高模型效率;
所述模型處理模塊用于模型訓練,測試以及結果調優內容;
所述自然語言處理模塊用于當原始數據不是表格,而是語言文字時,對語言文字進行初步處理,得到相關表格。
6.根據權利要求5所述的一種方便數據分析人員使用的集成機器學習的系統,其特征在于:
所述數據處理模塊包含數據探索和數據清洗兩個子模塊;
數據探索模塊包含每個字段信息的情況、字段的關聯分析和利群樣本點分析;
所述字段的關聯分析用于指定目標字段及特定分析字段列表,輸出各個字段與目標字段的關聯分析結果;
所述利群樣本點分析用于提供離群樣本檢測模板,輸出潛在的離群樣本點;
數據清洗模塊的功能包含刪除重復值、缺失值處理、閾值處理、離散化處理、二值化處理、歸一化/標準化處理和排序處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京至信普林科技有限公司,未經北京至信普林科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711393846.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:視頻圖像信息解析裝置、系統及方法
- 下一篇:一種車牌圖片管理方法和裝置





