[發明專利]基于hadoop的海量數據挖掘方法在審
| 申請號: | 201610098011.7 | 申請日: | 2016-02-23 |
| 公開(公告)號: | CN105787009A | 公開(公告)日: | 2016-07-20 |
| 發明(設計)人: | 武斌;陳雨;鄒建軍 | 申請(專利權)人: | 浪潮軟件集團有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/50 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 張靖 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 hadoop 海量 數據 挖掘 方法 | ||
技術領域
本發明涉及數據挖掘技術領域,具體涉及一種基于hadoop的海量數據挖掘方法。
背景技術
目前,隨著數據規模的迅速擴張,單一節點的計算能力已經不能勝任大規模數據的分析處理。近幾年來,隨著“云計算”技術的興起,人們將海量數據存儲與處理的目光轉向了這個新興的行業?!霸朴嬎恪笔且环N基于互聯網的計算,在其中共享的資源、軟件和信息等以一種按需的方式提供給計算機和設備。
“云計算”技術借助網絡中強大的計算資源,將消耗大量計算資源的復雜計算通過網絡分散到多節點上進行計算,是當前一種行之有效的解決方案?;ヂ摼W作為全球最大的數據集合,基于Web的數據挖掘一直是國內外學者研究的熱點。但是目前對數據挖掘的研究主要集中在改進挖掘系統的有效性方面,而忽視了對海量數據的處理速度。隨著網絡技術的迅猛發展,互聯網中的數據正以指數級規模飛速增長,IDC(InternetDataCenter,互聯網數據中心)估計2011年的互聯網中的數據規模將達到1.8ZB(1ZB=1024EB,1EB=1024PB,1PB=1024TB)。這使得基于單一節點的挖掘平臺不能完成目前海量Web數據的存儲與分析處理任務。因此,可以需要借助云計算強大的存儲和計算能力解決此類問題。
Hadoop“云計算”平臺最大的優勢是它實現了“計算靠近存儲”思想,傳統的“移動數據以靠近計算”模式在數據規模達到海量時的系統開銷太大,而“移動計算以靠近存儲”可以省去了海量數據的網絡傳輸這一大開銷,就能大幅消減處理時間。
對于現今的商業智能分析而言,通常需要進行海量數據的分析。因此,運用計算機的高效運算能力對數據資料進行統計分析已經是統計發展的必然趨勢。Hadoop是Apache下提供的一個為便于編寫和運行處理大規模數據的應用的軟件平臺。Hadoop的核心設計思想是:MapReduce和HDFS,MapReduce是Google提出的一個軟件架構,用于大規模數據集(大于1TB)的并行運算。概念"Map(映射)"和"Reduce(化簡)",和它們的主要思想,都是從函數式編程語言借來的,還有從矢量編程語言借來的特性;HDFS是HadoopDistributedFileSystem的縮寫,即:Hadoop分布式文件系統,它為分布式計算存儲提供底層支持。
由于傳統的挖掘算法不適合使用MapReduce模型在Hadoop集群上并行計算,本發明在對云計算平臺--Hadoop集群框架研究的基礎上給出了一種基于Hadoop的Web挖掘平臺。
發明內容
本發明要解決的技術問題是:本發明針對目前運行于單機集中平臺上的Web挖掘系統不能滿足海量數據處理的問題,提供一種基于hadoop的海量數據挖掘方法。
本發明所采用的技術方案為:
基于hadoop的海量數據挖掘方法,所述方法通過將遺傳算法與Hadoop平臺的Map/Reduce并行計算框架進行融合,用于Hadoop集群環境中的Web數據分析。
所述方法操作步驟如下:
1)作業提交:用戶提交基于MapReduce編程規范編寫的作業;
2)任務指派:作業控制節點(JobTracker)根據作業的情況,計算出需要的Map任務數M和Reduce任務數R,并根據數據分布情況和對應節點的負載,將Map任務分給存儲該任務對應的數據且負載最輕的任務執行節點(TaskTracker),同時根據作業結果的要求,分配相應任務執行節點(TaskTracker)執行Reduce任務;
3)任務數據讀?。罕环峙涞組ap子任務的任務執行節點(TaskTracker)讀入已經分割好的數據作為輸入,經過處理后生成key/value對;
4)Map任務執行:任務執行節點(TaskTracker)調用從作業控制節點(JobTracker)獲取到的用戶編寫的Map函數,并將中間結果緩存在內存中;
5)本地寫中間結果:內存中的中間結果達到一定閾值后,會寫入到任務執行節點(TaskTracker)地的磁盤中,這些中間數據通過分區函數分成R個分區,并將它們在本地磁盤的位置信息發送給作業控制節點(JobTracker),然后作業控制節點(JobTracker)將位置信息發送給執行Reduce子任務的任務執行節點(TaskTracker);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮軟件集團有限公司,未經浪潮軟件集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610098011.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





