[發明專利]一種大數據系統在審
| 申請號: | 201410658038.8 | 申請日: | 2014-11-18 |
| 公開(公告)號: | CN104361091A | 公開(公告)日: | 2015-02-18 |
| 發明(設計)人: | 辛國茂;張東;亓開元;趙仁明;房體盈;曹連超;盧軍佐;金洪殿;劉偉;楊勇;李占強;范榮盛 | 申請(專利權)人: | 浪潮(北京)電子信息產業有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 王丹;李丹 |
| 地址: | 100085 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 系統 | ||
技術領域
本發明涉及計算機信息存儲與處理技術領域,具體涉及一種大數據系統。
背景技術
信息科技經過60多年的發展,已滲透到各行業的方方面面。政治、經濟活動中很大一部分的活動都與數據的創造、采集、傳輸和使用相關,隨著網絡應用日益深化,大數據應用的影響日益擴大。根據機構測算,全世界數據總量以每兩年翻一番的速度遞增。換句話說,最近兩年產生的數據總量相當于人類有史以來所有數據量的總和。在這個背景下,從公司戰略到產業生態,從學術研究到生產實踐,從城鎮管理乃至國家治理,都將發生本質的變化。
大數據指的是大小超出常規的數據工具獲取、存儲、管理和分析能力的數據集,并不是說一定要超過特定TB值得數據集才能算是大數據。國際數據公司(IDC)從四個特征定義大數據,即海量的數據規模(Volume)、快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型(Variety)和巨大的數據價值(Value)。大數據幾乎滲透到國民經濟的所有部門,應用領域涉及信息服務、智慧城市、金融、制造業、國家安全和科學研究等。但目前這些行業處理大數據時,至少會面臨如下的問題:
1.數據存儲與管理
大數據給存儲系統帶來了3個方面的挑戰:存儲規模大,通常達到PB(1,000TB)甚至EB(1,000PB)量級;存儲管理復雜,需要兼顧結構化、非結構化和半結構化的數據;上層應用對存儲系統的性能、可靠性等指標有不同的要求,而數據的大規模和高復雜度放大了達到這些指標的技術難度。
3.數據分析處理
傳統的并行計算方法主要從體系結構和編程語言的層面定義了一些較為底層的并行計算抽象和模型,但由于大數據處理問題具有很有高層的數據特征和計算特征,因此大數據處理需要更多地結合這些高層特征考慮更為高層的計算模式。大數據處理包括以下典型的特征和維度:
●數據結構特征
可分為結構化數據處理、半結構化數據處理與非結構化數據處理。
●數據獲取處理方式
按照數據獲取方式,大數據可分為批處理與流式計算方式。
●數據處理類型
從數據處理類型來看,大數據處理可分為傳統的查詢分析計算和復雜的數據挖掘分析計算。
●實時性
從數據計算響應性能角度看,大數據處理可分為實時/準實時與非實時計算,或者是聯機計算與離線計算。
●并行計算體系結構
由于需要支持大規模數據的存儲計算,大數據處理通常需要使用基于集群的分布式存儲與并行計算體系結構和硬件平臺。
針對如上問題,開源社區和國內外廠商都在進行相應的嘗試和努力。大數據查詢分析的典型系統包括Hadoop下的HBase和Hive,Facebook開發的Cassandra,Google公司的Dremel,Cloudera公司的Impala;此外為了實現更高性能的數據查詢分析,還出現了不少基于內存的分布式數據存儲管理和查詢系統,如UC?Berkeley?AMPLab的基于內存計算引擎Spark的數據倉庫Shark。還有MPP(massively?parallel?processing)數據庫,比如EMC的GreenPlum,HP的Vertica。
最適合于大數據批處理的計算模式是MapReduce。MapReduce是一個單輸入、兩階段(Map和Reduce)的數據處理過程。MapReduce的簡單易用性使其成為目前大數據處理最為成功、最廣為接受使用的主流并行計算模式。在開源社區的努力下,Hadoop系統目前已發展成為較為成熟的大數據處理平臺,并已發展成一個包含眾多數據處理工具和環境的完整的生態系統。Spark也是一個批處理系統,在性能方面比Hadoop?MapReduce有很大提升,但是其易用性及穩定性方面目前仍不如Hadoop?MapReduce。
流式計算是一種高實時性的計算模式,需要對一定時間窗口內產生的新數據完成實時的計算處理,避免造成數據堆積和丟失。Facebook的Scribe和Apache的Flume都提供了機制來構建日志數據處理流圖。通用的流式計算系統是Twitter公司的Storm、Yahoo公司的S4、以及UC?Berkeley?AMPLab的Spark?Streaming。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮(北京)電子信息產業有限公司,未經浪潮(北京)電子信息產業有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410658038.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:搜索方法及裝置
- 下一篇:使用空間聽覺線索的數據搜索
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





