[發明專利]一種源分布式數據庫捕獲數據的系統及方法有效
| 申請號: | 201410488046.2 | 申請日: | 2014-09-22 |
| 公開(公告)號: | CN104239542B | 公開(公告)日: | 2017-11-17 |
| 發明(設計)人: | 孫志云;郭美思;吳楠 | 申請(專利權)人: | 浪潮(北京)電子信息產業有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安信方達知識產權代理有限公司11262 | 代理人: | 王丹,李丹 |
| 地址: | 100085 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布式 數據庫 捕獲 數據 系統 方法 | ||
技術領域
本發明涉及分布式計算機集群系統數據庫技術,尤其涉及分布式集群系統中開源分布式數據庫捕獲數據的系統及方法。
背景技術
隨著數據量呈現爆炸式的增長,單個計算機的運算處理能力及存儲能力已經遠遠不能滿足數據存儲及處理的要求。因此,計算機分布式的體系結構受到了用戶的關注及好評。在分布式體系結構中,可以將多臺廉價的計算機搭建成分布式集群系統,由此使得每臺機器上都能運行相應的任務,同時也能并行地處理用戶的需求。分布式集群系統具有高性能、高可靠、高擴展及低成本的特點。HBase是用于分布式集群系統的開源的分布式數據庫。利用HBase技術可在廉價的服務器上搭建起大規模結構化存儲集群,具有很高的數據吞吐量和很好的結構伸縮能力,并且不僅能夠同時處理結構化數據和非結構化的數據,還能通過實時隨機讀寫來補充分布式文件系統(HDFS)的不足。因此,對HBase定期捕獲數據是非常重要的。
在傳統的數據庫中,捕獲數據的方法要考慮事務的一致性。數據庫通過日志的方式保證事務的一致性,即在所有的事務提交后才能標記完成。在該過程中,如果有錯誤發生,會通過日志回縮的方式回到當前系統中的事務。因此,在捕獲傳統數據庫中的數據時,要保證每個數據庫中的保存記錄與源數據庫一致。在捕獲數據的保存記錄時一般采用寫時拷貝的方式來保存數據記錄。
在HBase分布式數據庫中,對HBase表中的合并操作和刪除操作會使得數據發生改變。在一些應用中,用戶需要使用各個階段HBase表中的數據。HBase中存放數據的框架圖如圖1所示。區域服務器(HregionServer)內部管理了一系列的區域(Hregion)對象,每個Hregion對應了Hbase表中的一個域(Region),HRegion中由多個存儲文件(Hstore)組成。每個Hstore對應了Hbase表中的一個列族(ColumnFamily)的數據存儲,每個ColumnFamily其實就是一個集中的存儲單元。Hstore是HBase存儲的核心,它由兩部分組成,一部分是緩存(MemStore),一部分是文件(StoreFile)。MemStore是內存緩存,用戶寫入的數據首先放到MemStore中,直到MemStore達滿就會刷新到StoreFile中形成底層HDFS的HFile文件。因此,在HBase定期捕獲數據時需要對MemStore和HFile文件保存記錄。而HDFS的HFile文件是在區域服務器中管理的,因此,需要對區域服務器的這些記錄進行分布式的保存。在HBase中主服務(Master)與RegionServer通信框架圖如圖2所示。
由于現有的HBase技術尚無一個實現對HBase定期捕獲數據的具體實現途徑和方法,使得HBase分布式數據庫不能滿足用戶在不同階段使用HBase表相應的數據信息的要求。因此,為滿足用戶對HBase的使用需求,需要提供一種HBase定期捕獲數據的方法,能夠讓用戶在不同階段均放心地使用HBase表中的數據。
發明內容
本發明所要解決的技術問題是提供一種源分布式數據庫捕獲數據的系統及方法,能夠讓用戶在不同階段均放心地使用HBase表中的數據。
為了解決上述技術問題,本發明提供了一種源分布式數據庫捕獲數據的方法,包括:
當區域服務器開始保存記錄時,將內存緩存中的數據刷新到分布式文件系統的文件里,然后針對所有要保存記錄的分布式文件系統的文件創建相應鏈接的引用文件,并將引用文件存儲到標記為本服務器的文件集合中。
進一步地,該方法還包括:
區域服務器在收到保存記錄的請求后通知主服務模塊;
主服務模塊根據該請求將需要保存記錄的信息記錄名稱通知到相應的區域服務器,并針對相應的區域服務器創建相應的文件集合;
區域服務器在成功完成保存記錄的操作時,將存有引用文件的文件集合返回給主服務模塊;
主服務模塊在收到區域服務器返回的文件集合后,將其存儲到相應的區域服務器的文件集合中。
進一步地,區域服務器收到的保存記錄的請求,是由用戶發出的請求,或是由源分布式數據庫系統定期自動發出的請求。
進一步地,源分布式數據庫是HBase,則各區域服務器執行保存記錄的工作流程具體包括:
創建標記本區域服務器的文件夾,文件夾即文件集合;
判斷本區域服務器是否滿足保存記錄的條件,即查看所有的內存緩存中是否有數據,是則將內存緩存中的數據刷新到內存文件中,然后將內存文件的數據存儲到分布式文件系統的文件中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮(北京)電子信息產業有限公司,未經浪潮(北京)電子信息產業有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410488046.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





