[發明專利]基于hadoop的海量數據挖掘方法在審
| 申請號: | 201610098011.7 | 申請日: | 2016-02-23 |
| 公開(公告)號: | CN105787009A | 公開(公告)日: | 2016-07-20 |
| 發明(設計)人: | 武斌;陳雨;鄒建軍 | 申請(專利權)人: | 浪潮軟件集團有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/50 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 張靖 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 hadoop 海量 數據 挖掘 方法 | ||
1.基于hadoop的海量數據挖掘方法,其特征在于:所述方法通過將遺傳算法與Hadoop平臺的Map/Reduce并行計算框架進行融合,用于Hadoop集群環境中的Web數據分析。
2.根據權利要求1所述的基于hadoop的海量數據挖掘方法,其特征在于,所述方法操作步驟如下:
1)作業提交:用戶提交基于MapReduce編程規范編寫的作業;
2)任務指派:作業控制節點根據作業的情況,計算出需要的Map任務數M和Reduce任務數R,并根據數據分布情況和對應節點的負載,將Map任務分給存儲該任務對應的數據且負載最輕的任務執行節點,同時根據作業結果的要求,分配相應任務執行節點執行Reduce任務;
3)任務數據讀取:被分配到Map子任務的任務執行節點讀入已經分割好的數據作為輸入,經過處理后生成key/value對;
4)Map任務執行:任務執行節點調用從作業控制節點獲取到的用戶編寫的Map函數,并將中間結果緩存在內存中;
5)本地寫中間結果:內存中的中間結果達到一定閾值后,會寫入到任務執行節點地的磁盤中,這些中間數據通過分區函數分成R個分區,并將它們在本地磁盤的位置信息發送給作業控制節點,然后作業控制節點將位置信息發送給執行Reduce子任務的任務執行節點;
6)遠程讀中間文件:執行Reduce的任務執行節點從作業控制節點獲取子任務之后,根據中間結果的位置信息通過socket拉取數據,并利用中間結果的key值進行排序,并將具有相同key的對進行合并;
7)執行Reduce任務:執行Reduce任務的任務執行節點遍歷所有排序后的中間數據,并傳遞給用戶的Reduce函數,執行Reduce過程;
8)輸出結果:當所有的Map任務和Reduce任務都完成時,作業控制節點控制將R個Reduce結果寫到HDFS之上。
3.根據權利要求1或2所述的基于hadoop的海量數據挖掘方法,其特征在于:所述方法基于hadoop的數據挖掘即服務,從DMaas給出面向數據挖掘的云端實施方案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮軟件集團有限公司,未經浪潮軟件集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610098011.7/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





