[發明專利]一種分布式數據挖掘模型評估的方法與系統在審
| 申請號: | 201611179166.X | 申請日: | 2016-12-19 |
| 公開(公告)號: | CN106599230A | 公開(公告)日: | 2017-04-26 |
| 發明(設計)人: | 婁海鳳;張立軍 | 申請(專利權)人: | 北京天元創新科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京路浩知識產權代理有限公司11002 | 代理人: | 湯財寶 |
| 地址: | 100193 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布式 數據 挖掘 模型 評估 方法 系統 | ||
技術領域
本發明涉及數據分析挖掘技術領域,更具體地,涉及一種分布式數據挖掘模型評估的方法與系統。
背景技術
目前,隨著大數據時代的到來,海量數據的分類應用問題越來越多,數據挖掘成為一種嶄新的商業信息處理技術;對數據及數據的挖掘處理進行建模的數據挖掘模型越來越重要。其中,對問題進行分類挖掘提取的具有分類算法的數據挖掘模型的預測能力成為更多用戶青睞的對象。
而數據挖掘模型的種類及其所使用的算法非常多,對于某一類具體數據的挖掘,模型也有優劣之分。如何在眾多數據挖掘模型中選擇性能滿足要求的模型非常重要,因為好的數據挖掘模型不僅準確率高而且速度快。
傳統的對數據挖掘模型的選擇,一般是由數據分析人員逐個構建多個模型并對比分模型結果,利用專業知識進行判別而選擇的最佳模型。這種人工的模型評估的方法,需要評估人具有專業的知識儲備,且評估結果的有效性和適用性具備較強的主觀性。
傳統的智能算法評估模型采用常規的并行計算方式,有兩個問題,其一是模型不支持分布式算法,其二是在使用大量數據進行算法評估時,模型速度較慢。
現有數據挖掘產品如R、SPSS Modeler、RapidMiner等,模型計算效率低下,模型評估流程復雜。
基于Spark數據分析架構的針對分類模型的模型評估模塊中,包含部分分類算法的分布式評估指標代碼包,但遠不能滿足其他分類模型的評估。
發明內容
本發明提供一種克服上述問題或者至少部分地解決上述問題的分布式數據挖掘模型評估的方法與系統。
根據本發明的一個方面,提供一種分布式數據挖掘模型評估的方法,包括:
S1,利用特定評估指標集生成模型評估模塊;
S2,基于評估數據集,利用所述模型評估模塊以分布式策略對至少一個數據挖掘模型進行評估。
進一步,所述S1進一步包括:
S1.1,建立評估指標庫,將所述特定評估指標集配置到所述評估指標庫中;
S1.2,生成一個包含所述特定評估指標集中的全部評估指標的模型評估模塊。
進一步,所述S2進一步包括:
S2.1,從大數據中獲取所述評估數據集,選取數據挖掘算法對所述評估數據集進行數據分析,獲得數據挖掘模型;
S2.2,基于Spark分布式計算框架,利用所述模型評估模塊對所述數據挖掘模型進行評估,以評估數據挖掘模型或數據挖掘算法的優劣。
具體的,所述特定評估指標集中的評估指標包括準確率、召回率、F-測量、ROC曲線、AUC面積、均方誤差、均方根誤差和平均絕對誤差。
進一步,所述S2.1進一步包括:
基于一個數據挖掘算法,配置不同的參數對所述評估數據集進行數據分析,獲得用于評估數據挖掘模型的多個數據挖掘模型;或者
基于多個數據挖掘算法,對所述評估數據集進行數據分析,獲得用于評估數據挖掘算法的多個數據挖掘模型。
進一步,所述S2.2進一步包括:
S2.2.1,將所述模型評估模塊配置為評估流程節點;
S2.2.2,基于所述評估流程節點和預設的評估指標,利用所述Spark分布式計算框架對待評估的數據挖掘模型進行評估,獲得評估結果,并將所述評估結果寫入數據庫。
進一步,所述S2.2進一步包括:
S2.2.4,通過增益圖和提升圖對所述評估結果進行顯示。
進一步,所述S2.2進一步包括:
所述模型評估模塊對基于一個數據挖掘算法的多個數據挖掘模型分別進行評估,獲得對所述多個數據挖掘模型的評估結果;或者
所述模型評估模塊對基于多個數據挖掘算法的多個數據挖掘模型分別進行評估,獲得對所述多個數據挖掘算法的評估結果。
具體的,所述預設的評估指標為所述特定評估指標集中的至少一種。
根據本發明的另一個方面,一種分布式數據挖掘模型評估的系統,包括評估模塊生成模塊和模型評估模塊,
所述評估模塊生成模塊,用于利用特定評估指標集生成模型評估模塊;
所述模型評估模塊,用于基于評估數據集,利用所述模型評估模塊以分布式策略對至少一個數據挖掘模型進行評估。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京天元創新科技有限公司,未經北京天元創新科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611179166.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于Flex的業務系統的構建方法及裝置
- 下一篇:頁面顯示方法及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





