[發(fā)明專利]數(shù)據(jù)分析服務(wù)流程模型推薦方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811510295.1 | 申請(qǐng)日: | 2018-12-11 |
| 公開(kāi)(公告)號(hào): | CN109783633B | 公開(kāi)(公告)日: | 2023-03-24 |
| 發(fā)明(設(shè)計(jì))人: | 王偉;曹健 | 申請(qǐng)(專利權(quán))人: | 江陰逐日信息科技有限公司 |
| 主分類號(hào): | G06F16/335 | 分類號(hào): | G06F16/335;G06F16/35;G06F40/216;G06F40/289;G06F40/30;G06F18/22;G06F18/2411 |
| 代理公司: | 上海正策律師事務(wù)所 31271 | 代理人: | 吳磊 |
| 地址: | 214400 江蘇省無(wú)錫市江陰市濱江西路2號(hào)12號(hào)*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 分析 服務(wù) 流程 模型 推薦 方法 | ||
本發(fā)明一種數(shù)據(jù)分析服務(wù)流程模型推薦方法,其特征在于,其包括:從OpenML下載數(shù)據(jù)集、模型及模型運(yùn)行信息,其中數(shù)據(jù)集中可用于模型推薦的信息有數(shù)據(jù)集的數(shù)據(jù)信息和數(shù)據(jù)集的文本描述信息;對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理;提取預(yù)處理后的數(shù)據(jù)集的數(shù)據(jù)特征;基于預(yù)處理后的數(shù)據(jù)集的文本描述信息提取數(shù)據(jù)集文本描述特征;利用預(yù)處理后的數(shù)據(jù)集的數(shù)據(jù)特征和文本描述特征構(gòu)建SVM模型類型分類器,得到模型類型;利用協(xié)同過(guò)濾算法計(jì)算預(yù)處理后的數(shù)據(jù)集的數(shù)據(jù)特征和文本描述特征的相似性,根據(jù)相似性和模型類型推薦模型。本發(fā)明數(shù)據(jù)分析服務(wù)流程模型其擁有豐富的數(shù)據(jù)集信息,通過(guò)數(shù)據(jù)集信息的特征比較挖掘,往往能使得模型推薦擁有更好的效果。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)分析服務(wù)技術(shù)領(lǐng)域,特別是涉及一種數(shù)據(jù)分析服務(wù)流程模型推薦方法。
背景技術(shù)
工作流(服務(wù)流程)模型推薦,現(xiàn)有主要分為傳統(tǒng)的業(yè)務(wù)工作流模型推薦和隨著數(shù)據(jù)挖掘、大數(shù)據(jù)興起的數(shù)據(jù)分析工作流模型推薦。
對(duì)于傳統(tǒng)的業(yè)務(wù)工作流模型推薦,各種研究已較為完善,算法已較為成熟。目前主流的算法主要分為:分類(Classification)、概率圖模型(Probabilistic GraphicalModels)。其中分類又主要分為:聚類(Clustering methods)、決策樹(shù)(Decision trees)。概率圖模型又分為貝葉斯網(wǎng)絡(luò)(Bayesian networks)、馬爾科夫鏈(Markov Chains)。它們都能較好的進(jìn)行業(yè)務(wù)工作流模型的推薦。
而對(duì)于數(shù)據(jù)分析工作流模型推薦,一開(kāi)始研究者們紛紛借鑒了業(yè)務(wù)工作流模型推薦的方法。在用戶設(shè)計(jì)模型時(shí),對(duì)模型進(jìn)行解析,與數(shù)據(jù)庫(kù)中模型進(jìn)行比較,為用戶推薦模型下一步構(gòu)建步驟。常見(jiàn)的方法有:上下文感知的KNN方法(A Context-Aware kNNMethod)、上下文感知共現(xiàn)方法(A Context-Aware Co-Occurrence Method)、基于鏈接的方法(A Linked-Based Method)、基于鏈的方法(A Chain-Based Method)等等。
以上方法將傳統(tǒng)的模型推薦算法結(jié)合上下文信息,應(yīng)用于數(shù)據(jù)服務(wù)流程模型推薦上,確實(shí)提高了推薦的準(zhǔn)確率,但其同時(shí)也存在一些問(wèn)題:只考慮了模型的信息,但是數(shù)據(jù)分析工作流與傳統(tǒng)的業(yè)務(wù)工作流不同,還需要考慮數(shù)據(jù)的特征。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題和不足,提供一種新型的數(shù)據(jù)分析服務(wù)流程模型推薦方法。
本發(fā)明是通過(guò)下述技術(shù)方案來(lái)解決上述技術(shù)問(wèn)題的:
本發(fā)明提供一種數(shù)據(jù)分析服務(wù)流程模型推薦方法,其特點(diǎn)在于,其包括以下步驟:
S1、從OpenML下載數(shù)據(jù)集、模型及模型運(yùn)行信息,其中數(shù)據(jù)集中可用于模型推薦的信息有數(shù)據(jù)集的數(shù)據(jù)信息和數(shù)據(jù)集的文本描述信息;
S2、對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理;
S3、提取預(yù)處理后的數(shù)據(jù)集的數(shù)據(jù)特征;
S4、基于預(yù)處理后的數(shù)據(jù)集的文本描述信息提取數(shù)據(jù)集文本描述特征;
S5、利用預(yù)處理后的數(shù)據(jù)集的數(shù)據(jù)特征和文本描述特征構(gòu)建SVM模型類型分類器,得到模型類型;
S6、利用協(xié)同過(guò)濾算法計(jì)算預(yù)處理后的數(shù)據(jù)集的數(shù)據(jù)特征和文本描述特征的相似性,根據(jù)相似性和模型類型推薦模型。
較佳地,步驟S2包括:
S21、過(guò)濾數(shù)據(jù)集信息,對(duì)于數(shù)據(jù)集在模型中運(yùn)行次數(shù)少于100次的數(shù)據(jù)集進(jìn)行排除;
S22、標(biāo)注各個(gè)數(shù)據(jù)集上的最佳模型,最佳模型主要有兩方面影響因子:數(shù)據(jù)集在模型中運(yùn)行得到的準(zhǔn)確率accuracy和模型被用戶運(yùn)行次數(shù)runTime,根據(jù)如下公式進(jìn)行歸一化處理,并得到評(píng)分最高的最佳模型scor:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江陰逐日信息科技有限公司,未經(jīng)江陰逐日信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811510295.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 服務(wù)票據(jù)發(fā)行系統(tǒng)及服務(wù)票據(jù)發(fā)行服務(wù)
- 出租服務(wù)服務(wù)器和出租服務(wù)系統(tǒng)
- 服務(wù)開(kāi)放方法及系統(tǒng)、服務(wù)開(kāi)放服務(wù)器
- 基于服務(wù)券服務(wù)的在線企業(yè)服務(wù)平臺(tái)
- 退稅服務(wù)系統(tǒng)、退稅服務(wù)平臺(tái)及其服務(wù)方法
- 服務(wù)亭(服務(wù)驛站)
- 公共服務(wù)自助服務(wù)機(jī)
- 服務(wù)提供服務(wù)器、服務(wù)提供系統(tǒng)以及服務(wù)提供方法
- 服務(wù)提供服務(wù)器、服務(wù)提供系統(tǒng)以及服務(wù)提供方法
- 服務(wù)提供服務(wù)器、服務(wù)提供系統(tǒng)以及服務(wù)提供方法





