[發明專利]一種數據自動分析與建模流程在審
| 申請號: | 202110283956.7 | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN112801304A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 王國棟 | 申請(專利權)人: | 中奧智能工業研究院(南京)有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N3/04;G06N3/08;G06N3/12;G06F16/27;G06K9/62 |
| 代理公司: | 南京中盟科創知識產權代理事務所(特殊普通合伙) 32279 | 代理人: | 張靖堯 |
| 地址: | 210000 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 自動 分析 建模 流程 | ||
本發明公開了一種數據自動分析與建模流程,該流程包括以下步驟:S1、將數據管理、數據透視、特征選擇、模型搜索、報告生成、模型預測、模型迭代和數據追加8個步驟以及自動機器學習中的超參數搜索、自動特征工程整合簡化為一個流程;S2、結合分布式計算、分布式存儲、遠程過程調用以及瀏覽器和服務器架構技術,將所述流程實例化為一個系統,且所述流程中的每個步驟分別對應所述系統中相應的功能模塊。有益效果:將數據分析及建模封裝成一種簡單、易操作的流程,大大降低了基于機器學習的數據分析與建模門檻,并通過網頁實現交互,既使無機器學習背景的用戶,也能訓練并選擇出最優的模型。
技術領域
本發明涉及自動機器學習和數據建模分析領域,具體來說,涉及一種數據自動分析與建模流程。
背景技術
機器學習方法在數據分析與挖掘中的應用越來越廣泛,但目前各大公司對數據的分析和挖掘還是靠機器學習專家來完成。既使經驗豐富的機器學習專家在分析或挖掘數據時,也需要先從繁瑣的數據處理、數據統計分析開始,然后根據經驗和數據分布選擇算法進行驗證和測試,而所選算法是否合適還要靠大量的實驗來證明,該過程耗時耗力。同時,常用的機器學習算法都含有一定數量的超參數,如何針對當前數據選擇合適的超參數,又是一個繁瑣且具有挑戰性的工作。
針對上述問題,自動機器學習逐漸受到工業界的重視。各大IT巨頭都搭建或者嘗試搭建自動機器學習平臺,以降低機器學習技術的使用門檻,但流程依然很繁瑣,無機器學習知識的用戶使用起來依然有難度。同時,已有的開源機器學習平臺,如:AutoWeka、Auto-sklearn、TPOT,雖然已經做了較高的封裝,但對缺少機器學習知識的用戶依然很不友好。
針對上述的相關問題,目前尚未提出有效的解決方案。
發明內容
針對相關技術中的問題,本發明提出一種數據自動分析與建模流程,以克服現有相關技術所存在的上述技術問題。
為此,本發明采用的具體技術方案如下:
一種數據自動分析與建模流程,該流程包括以下步驟:
S1、將數據管理、數據透視、特征選擇、模型搜索、報告生成、模型預測、模型迭代和數據追加8個步驟以及自動機器學習中的超參數搜索、自動特征工程整合簡化為一個流程;
S2、結合分布式計算、分布式存儲、遠程過程調用以及瀏覽器和服務器(B/S)架構技術,將所述流程實例化為一個系統,且所述流程中的每個步驟分別對應所述系統中相應的功能模塊。
進一步的,所述數據管理實現數據集上傳、數據集屬性管理、數據集追加和目標列自主選擇功能,包括以下步驟:
S111、在數據加載中,引入數據轉換層;
S112、通過數據轉換層使用策略模式,向前對接不同類型的數據源,向后使用數據類型推斷、表頭字段推理技術將不同來源的數據格式化,并輸出CSV格式文件提供給數據入庫模塊使用。
進一步的,所述數據透視實現數據分布分析、分析結果圖表繪制、數據預處理、特征關聯分析及工具集功能,包括以下步驟:
S121、將數據在網頁上渲染展示,并根據用戶的需求自由組合特征例和目標例進行建模;
S122、根據選擇的數據調用非監督學習或監督學習算法對數據進行分析,并以圖表的方式展示分析結果。
進一步的,所述特征選擇實現重要特征篩選、缺失值補全及異常值檢測功能。
進一步的,所述模型搜索實現超參數搜索引擎、元學習引擎、神經網絡架構搜索、模型庫構建及算法搜索空間定義功能,包括以下步驟:
S141、通過遺傳算法為不同模型選定超參數,并在數據集上進行訓練;
S142、根據評估結果推薦前十個最好的數據預處理和預測模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中奧智能工業研究院(南京)有限公司,未經中奧智能工業研究院(南京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110283956.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電力/電量補償協同的風光水多能互補容量優化配置方法
- 下一篇:齒輪泵
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





