[發(fā)明專利]一種大數(shù)據(jù)分析與處理系統(tǒng)及訪問方法在審
| 申請?zhí)枺?/td> | 201410577412.1 | 申請日: | 2014-10-24 |
| 公開(公告)號: | CN104317899A | 公開(公告)日: | 2015-01-28 |
| 發(fā)明(設(shè)計)人: | 王茜;葛新;李安穎;史晨昱;梁小江 | 申請(專利權(quán))人: | 西安未來國際信息股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 羅笛 |
| 地址: | 710075 陜西省西安*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 分析 處理 系統(tǒng) 訪問 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于大數(shù)據(jù)處理技術(shù)領(lǐng)域,涉及一種大數(shù)據(jù)分析與處理系統(tǒng),本發(fā)明還涉及一種大數(shù)據(jù)訪問方法。
背景技術(shù)
隨著信息技術(shù)的發(fā)展,信息數(shù)量呈現(xiàn)幾何式增長,各種非關(guān)系型數(shù)據(jù)結(jié)構(gòu)充斥在互聯(lián)網(wǎng)中,傳統(tǒng)關(guān)系型數(shù)據(jù)庫很難滿足新的需求,同時,集中式數(shù)據(jù)分析與處理從海量信息中快速分析與統(tǒng)計出真正需要的信息正變得越來越困難,所以數(shù)據(jù)存儲與數(shù)據(jù)分析都應(yīng)具備分布式處理能力,能根據(jù)需要處理信息的增長,不斷地擴展系統(tǒng)規(guī)模以增強系統(tǒng)存儲能力、信息分析與處理能力。NoSQL數(shù)據(jù)庫技術(shù)的出現(xiàn)為當前面臨的問題提供了新的解決方案,它采用了分布式多節(jié)點的方式,更加適合大數(shù)據(jù)的存儲和管理。NoSQL數(shù)據(jù)庫在設(shè)計上非常關(guān)注對數(shù)據(jù)高并發(fā)的讀寫和對海量數(shù)據(jù)的存儲等,與關(guān)系型數(shù)據(jù)庫相比,它們在架構(gòu)和數(shù)據(jù)模型方面做了“減法”,而在擴展和并發(fā)等方面做了“加法”。現(xiàn)今的計算機體系結(jié)構(gòu)在數(shù)據(jù)存儲方面要求具備龐大的水平擴展性,而NoSQL致力于改變這一現(xiàn)狀。目前Google、Yahoo、Facebook、Twitter、Amazon都在大量應(yīng)用NoSQL型數(shù)據(jù)庫。NoSQL數(shù)據(jù)庫正在逐漸地成為數(shù)據(jù)庫領(lǐng)域中不可或缺的一部分。
MongoDB是NoSQL數(shù)據(jù)庫產(chǎn)品中最熱門的一種。它是一個介于關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫之間的產(chǎn)品,是非關(guān)系數(shù)據(jù)庫當中功能最豐富,最像關(guān)系數(shù)據(jù)庫的。它支持的數(shù)據(jù)結(jié)構(gòu)非常松散,是類似json的bjson格式,因此可以存儲比較復(fù)雜的數(shù)據(jù)類型。Mongo最大的特點是他支持的查詢語言非常強大,其語法有點類似于面向?qū)ο蟮牟樵冋Z言,幾乎可以實現(xiàn)類似關(guān)系數(shù)據(jù)庫單表查詢的絕大部分功能,而且還支持對數(shù)據(jù)建立索引。它的特點是高性能、易部署、易使用,存儲數(shù)據(jù)非常方便。
分布式的云計算技術(shù)通過整合資源的方式,為降低成本和能耗提供了一種簡化的、集中的計算平臺。Hadoop是一個開源的分布式的并行計算平臺,其Map/Reduce運算功能被廣泛地應(yīng)用在數(shù)據(jù)分析與處理領(lǐng)域,Hadoop正在發(fā)展成為絕佳的大數(shù)據(jù)分析方法。
Hadoop軟件是用于大數(shù)據(jù)分析的完整開源框架。它包括一個分布式文件系統(tǒng)(HDFS)、一個并行處理框架(Apache?HadoopMapReduce)和多種不同的組件,支持數(shù)據(jù)獲取、工作流協(xié)調(diào)、任務(wù)管理以及集群監(jiān)控等功能。Hadoop能夠比傳統(tǒng)方法更經(jīng)濟高效地處理大型非結(jié)構(gòu)化數(shù)據(jù)集。
當海量數(shù)據(jù)存儲在NoSQL數(shù)據(jù)庫中時,hadoop要對這些數(shù)據(jù)進行處理時的做法是先將NoSQL數(shù)據(jù)庫中的要分析的數(shù)據(jù)導(dǎo)入到HDFS中,然后再對其進行MapReduce操作,MapReduce處理完成之后再將數(shù)據(jù)寫入HDFS中,最后將處理結(jié)果寫回NoSQL數(shù)據(jù)庫。整個過程中HDFS只是做了數(shù)據(jù)存儲的中間件,并沒有對數(shù)據(jù)進行實質(zhì)性的分析處理,而NoSQL數(shù)據(jù)庫本身就是數(shù)據(jù)持久化的工具,如果將HDFS這一過程省略,數(shù)據(jù)處理過程的效率將會提高很多。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種大數(shù)據(jù)分析與處理系統(tǒng),能夠通過hadoop的MapReduce組件直接處理MongoDB中的數(shù)據(jù),并將處理結(jié)果直接寫回MongoDB數(shù)據(jù)庫。
本發(fā)明的另一目的是提供一種大數(shù)據(jù)訪問方法,能夠通過hadoop的MapReduce組件直接處理MongoDB中的數(shù)據(jù),并將處理結(jié)果直接寫回MongoDB數(shù)據(jù)庫。
本發(fā)明一種技術(shù)方案所采用的技術(shù)方案是,一種大數(shù)據(jù)分析與處理系統(tǒng),包括分布于物理服務(wù)器上的Hadoop?MapRuduce模塊、mongo-hadoop連接器和mongodb數(shù)據(jù)庫分片集群。
本發(fā)明一種技術(shù)方案的特點還在于,
物理服務(wù)器包括主節(jié)點物理服務(wù)器和從節(jié)點物理服務(wù)器。
Hadoop?MapRuduce模塊包括jobtracker單元和tasktracker單元,jobtracker單元分布于主節(jié)點物理服務(wù)器上,tasktracker單元分布于從節(jié)點物理服務(wù)器上。
mongodb數(shù)據(jù)庫分片集群包括mongood進程單元、路由進程單元和配置服務(wù)器單元,路由進程單元分布于主節(jié)點物理服務(wù)器上,mongood進程單元和配置服務(wù)器單元均分布于從節(jié)點物理服務(wù)器上。
從節(jié)點物理服務(wù)器的數(shù)量不少于2個。
本發(fā)明另一種技術(shù)方案所采用的技術(shù)方案是,一種大數(shù)據(jù)訪問方法,采用一種大數(shù)據(jù)分析與處理系統(tǒng),其結(jié)構(gòu)為:包括分布于物理服務(wù)器上的Hadoop?MapRuduce模塊、mongo-hadoop連接器和mongodb數(shù)據(jù)庫分片集群;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安未來國際信息股份有限公司,未經(jīng)西安未來國際信息股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410577412.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:羊飼料及其制備方法
- 下一篇:一種黃秋葵茶及其生產(chǎn)方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





