[發明專利]數據分析服務流程模型推薦方法有效
| 申請號: | 201811510295.1 | 申請日: | 2018-12-11 |
| 公開(公告)號: | CN109783633B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 王偉;曹健 | 申請(專利權)人: | 江陰逐日信息科技有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/35;G06F40/216;G06F40/289;G06F40/30;G06F18/22;G06F18/2411 |
| 代理公司: | 上海正策律師事務所 31271 | 代理人: | 吳磊 |
| 地址: | 214400 江蘇省無錫市江陰市濱江西路2號12號*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 分析 服務 流程 模型 推薦 方法 | ||
1.一種數據分析服務流程模型推薦方法,其特征在于,其包括以下步驟:
S1、從OpenML下載數據集、模型及模型運行信息,其中數據集中用于模型推薦的信息有數據集的數據信息和數據集的文本描述信息;
S2、對數據集進行預處理;
S3、提取預處理后的數據集的數據特征;
S4、基于預處理后的數據集的文本描述信息提取數據集文本描述特征;
S5、利用預處理后的數據集的數據特征和文本描述特征構建SVM模型類型分類器,得到模型類型;
S6、利用協同過濾算法計算預處理后的數據集的數據特征和文本描述特征的相似性,根據相似性和模型類型推薦模型;
在步驟S6中,利用TF-IDF向量和數據集特征值進行協同過濾,得到數據集集合中與該數據集的相似矩陣,判斷其數據集的最佳模型是否屬于由SVM所得的模型類型,得到相似性最高的k個數據集的最佳模型。
2.如權利要求1所述的數據分析服務流程模型推薦方法,其特征在于,步驟S2包括:
S21、過濾數據集信息,對于數據集在模型中運行次數少于100次的數據集進行排除;
S22、標注各個數據集上的最佳模型,最佳模型主要有兩方面影響因子:數據集在模型中運行得到的準確率accuracy和模型被用戶運行次數runTime,根據如下公式進行歸一化處理,并得到評分最高的最佳模型scor:
α+β=1
其中,A為準確率,R為單個模型運行次數,R'為數據集上所有模型總運行次數,α和β為歸一化因子。
3.如權利要求1所述的數據分析服務流程模型推薦方法,其特征在于,步驟S3包括:對預處理后的數據集進行統計分析以分析出數據集的數據特征,所述數據集的數據特征包括:數據集實例數目、數據集屬性數目、數字屬性數目、文本屬性數目。
4.如權利要求1所述的數據分析服務流程模型推薦方法,其特征在于,步驟S4包括:
S41、對于文本信息進行分詞,英文按照空格分詞,中文使用分詞工具來進行分詞;
S42、將分詞后的文本數據轉換為TF-IDF特征向量或NLP特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江陰逐日信息科技有限公司,未經江陰逐日信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811510295.1/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





