[發明專利]一種采用NoSQL數據庫實現分布式計算的方法在審
| 申請號: | 201611189207.3 | 申請日: | 2016-12-21 |
| 公開(公告)號: | CN106599253A | 公開(公告)日: | 2017-04-26 |
| 發明(設計)人: | 宋健健;戴鴻君;于治樓 | 申請(專利權)人: | 濟南浪潮高新科技投資發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南信達專利事務所有限公司37100 | 代理人: | 姜明 |
| 地址: | 250100 山東省濟南市*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 采用 nosql 數據庫 實現 分布式 計算 方法 | ||
技術領域
本發明涉及計算機分布式計算技術領域,特別涉及一種采用NoSQL數據庫實現分布式計算的方法。
背景技術
分布式計算是將計算分解成許多小部分,分配給多臺計算機進行處理,節約整體計算時間,提高計算的效率。分布式計算可以共享稀有資源,可以平衡多臺計算機的運行負載,可以選擇最適宜的主機進行計算。
NoSQL,泛指非關系型的數據庫。隨著互聯網web2.0網站的興起,傳統的關系數據庫在應付web2.0網站,特別是超大規模和高并發的SNS類型的web2.0純動態網站已經顯得力不從心,暴露了很多難以克服的問題,而非關系型的數據庫則由于其本身的特點得到了非常迅速的發展。NoSQL數據庫的產生就是為了解決大規模數據集合多重數據種類帶來的挑戰,尤其是大數據應用難題。
對于NoSQL并沒有一個明確的范圍和定義,但是他們都普遍存在下面一些共同特征:
1、不需要預定義模式:不需要事先定義數據模式,預定義表結構。數據中的每條記錄都可能有不同的屬性和格式。當插入數據時,并不需要預先定義它們的模式。
2、無共享架構:相對于將所有數據存儲的存儲區域網絡中的全共享架構。NoSQL往往將數據劃分后存儲在各個本地服務器上。因為從本地磁盤讀取數據的性能往往好于通過網絡傳輸讀取數據的性能,從而提高了系統的性能。
3、彈性可擴展:可以在系統運行的時候,動態增加或者刪除結點。不需要停機維護,數據可以自動遷移。
4、分區:相對于將數據存放于同一個節點,NoSQL數據庫需要將數據進行分區,將記錄分散在多個節點上面。并且通常分區的同時還要做復制。這樣既提高了并行性能,又能保證沒有單點失效的問題。
5、異步復制:和RAID存儲系統不同的是,NoSQL中的復制,往往是基于日志的異步復制。這樣,數據就可以盡快地寫入一個節點,而不會被網絡傳輸引起遲延。缺點是并不總是能保證一致性,這樣的方式在出現故障的時候,可能會丟失少量的數據。
6、BASE:相對于事務嚴格的ACID特性,NoSQL數據庫保證的是BASE特性。BASE是最終一致性和軟事務。
NoSQL數據庫并沒有一個統一的架構,兩種NoSQL數據庫之間的不同,甚至遠遠超過兩種關系型數據庫的不同??梢哉f,NoSQL各有所長,成功的NoSQL必然特別適用于某些場合或者某些應用,在這些場合中會遠遠勝過關系型數據庫和其他的NoSQL。
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。
用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。
Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統中的數據。
Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。
Hadoop實現一個分布式的文件系統,具有高容錯性的特點。它可以通過提高吞吐量來增加應用程序數據的訪問,也可以以數據流的形式來訪問文件系統中的數據。
分布式增量數據處理是利用Hadoop的數據處理能力,解決分布式計算在數據處理方面的欠缺,通過在Hadoop的文件系統中運行數據處理操作,使得計算過程不用考慮數據處理的具體細節,例如數據分片、輸入、輸出等問題。
基于中間件的分布式計算模型,如圖1所示。
發明內容
為了解決現有技術的問題,本發明提供了一種采用NoSQL數據庫實現分布式計算的方法,其采用NoSQL來存儲需要計算的分區數據,并使用NoSQL進行并行數據增量的處理,降低分布式計算的成本。
本發明所采用的技術方案如下:
一種采用NoSQL數據庫實現分布式計算的方法,包括以下步驟:
A、在分布式系統中,采用NoSQL方式創建數據倉庫,建立該數據倉庫的全文索引;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于濟南浪潮高新科技投資發展有限公司,未經濟南浪潮高新科技投資發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611189207.3/2.html,轉載請聲明來源鉆瓜專利網。





