[發明專利]一種基于Hadoop的海量數據實時分析處理方法無效
| 申請號: | 201210181391.2 | 申請日: | 2012-06-05 |
| 公開(公告)號: | CN102761602A | 公開(公告)日: | 2012-10-31 |
| 發明(設計)人: | 包麗霞 | 申請(專利權)人: | 北京永洪商智科技有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hadoop 海量 數據 實時 分析 處理 方法 | ||
技術領域
本發明涉及云計算領域中的基于Hadoop框架的海量數據實時處理方法,更具體地,涉及在數據應用領域中,將海量數據的實時處理特性應用于數據分析與數據處理中。
背景技術
云計算已經被看做IT業的新趨勢,可以粗略的定義為使用自己環境之外的某一服務提供的可伸縮計算資源,并按使用量付費,可以通過Internet訪問“云”中的任何資源,而不需要擔心計算能力、貸款、存儲、安全性和可靠性問題。
從企業角度看,日益增長的信息已經很難存儲在標準關系數據庫甚至數據倉庫中,例如,怎樣查詢一個十億行的表,怎樣跨越數據中心所有服務器上的所有日志來進行一個數據查詢,更為復雜的是很多數據是非結構化或者半結構話的,這就更難查詢了。
Hadoop是一種框架,它可以分布式地操縱大量數據,在海量數據處理上具備了很多的優勢:
1.高容錯性:從設計上HDFS已經假設了各服務器節點可能宕機,或者網絡可能分割。這些問題會導致某些服務器不可用。Hadoop通過如下手段實現了高容錯性:
1.1心跳檢測和文件復制;
1.2數據完整性檢測;
1.3元數據多源備份及Log機制;
1.4集群均衡。
2.高伸縮性:Hadoop集群可以從一臺機器擴大到上千臺機器。具備很強的應對業務變化的能力。這里的業務變化可以是幾個小時之內業務量從波峰到波谷之間的轉換,也可以是中長期的業務增長或者變化。
3.高成熟性:業界多家傳統IT巨頭都在Hadoop上工作,將此系統打磨得相當成熟穩定。基于Hadoop的應用,無須擔憂Hadoop本身的穩定性。而且有很多相關的基于Hadoop的套件可以使用例如HBase、Hive、Zookeeper等等都可以基于Hadoop或者結合Hadoop展開運用。
但是,Hadoop框架架構處理海量數據時也存在著一定的劣勢,基于Hadoop的Map?Reduce架構以支持高容量訪問為目標,反而忽略了任務處理的延遲問題,這里是一些典型的不利于實時處理的實現:
1.Hadoop?Map?Reduce架構的任務分配中心不會將信息推到服務器,而是讓服務器通過心跳去申請任務。而心跳的時間間隔一般是3秒,隨著服務器數增長還要增加。對實時處理的要求而言,這是相當耗費時間的工作。
2.Hadoop本身是一個框架。基于框架的通用性,Map?Reduce本身的代碼文件集也會在HDFS(文件系統)中傳遞,然后到服務器上展開,通過啟動新JVM進程裝載并運行。這是相當耗費時間的工作。而在一個Job的運行過程中,類似的JVM進程啟動停止有5、6個之多,無法適應實時處理的需求。
3.Hadoop本身是一個框架。基于框架的通用性,Map?Reduce的結果也會寫入HDFS中。
用戶只能再通過訪問HDFS得到相應的結果。這又白白地耗費了一段時間。
由此可見,基于以上Hadoop?Map?Reduce架構的特點,我們可以看出,Hadoop?Map?Reduce適合通過批處理方式訪問海量數據,但無法滿足海量數據的實時處理的需求。實時商業智能建設的主要目標是支持實時決策,這就對海量數據處理的即時、快速、穩定提出了更高的要求。
發明內容
本發明主要目的是基于Hadoop?Map-Reduce架構中對海量數據實時性處理的特點和劣勢,構建服務于商業智能軟件自身的Map-Reduce框架,大大提升Hadoop平臺實時運行Job的能力。完成高效信息的交換,減少實時傳輸和部署的時長,使整個商業智能系統對海量數據實時處理方面的能力得到一個很大的提升。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京永洪商智科技有限公司,未經北京永洪商智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210181391.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





