[發明專利]用于海量數據管理的數據處理方法和系統有效
| 申請號: | 201110217035.7 | 申請日: | 2011-07-29 |
| 公開(公告)號: | CN102332004A | 公開(公告)日: | 2012-01-25 |
| 發明(設計)人: | 吳廣君;王樹鵬;云曉春;張永錚;王明華 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 海量 數據管理 數據處理 方法 系統 | ||
技術領域
本發明針對海量數據管理過程中加載與檢索效率低下的問題,提出并發加載和多層次并發檢索的方法和線性擴容的系統,尤其涉及一種線性擴容的分布式并發加載、檢索方法和系統。
背景技術
據市場調查公司IDC統計,到2011年全球數據量預計達到35.2ZB(1ZB=1021B)。典型的應用包括:海量日志的分析、挖掘;網絡報文的實時存儲與分析;Web2.0下的在線游戲、SNS網絡等。傳統關系型數據庫由于一致性的約束,在數據量達到TB量級時,加載效率和檢索效率會明顯下降;典型的分布式No-SQL數據庫,如Yahoo!的PNUTS,Amazon的Dynamo,Facebook的Cassandra以及Hbase,Hypertable等由于沒有為數據源建立索引的機制,僅支持字符串數據類型,導致系統僅提供基于關鍵字或者時間戳的數據管理,無法執行復雜的統計、分析操作。
目前海量數據管理中大部分的應用可以通過二維表結構數據管理模型實現數據的管理與分析操作;同時對于數據加載過程中多條記錄之間的一致性需求較弱?;谏鲜龇治?,本發明設計并實現具有海量數據管理功能的數據處理方法和系統,通過分布式的數據處理方法和系統為用戶提供二維表空間的數據管理模型(行為記錄,列為屬性),每條記錄內部支持多種屬性數據檢索,多條記錄之間可以聯合執行復雜的統計、分析操作。通過元數據管理裝置,集中管理海量數據的元數據和分布存儲的數據塊與數據存儲裝置的映射關系,支持數據的并發加載與數據管理裝置的線性擴容。
發明內容
為解決上述技術問題,本發明提出一種用于海量數據管理的數據處理方法和系統,提高了海量數據的處理效率,降低了針對海量數據處理的復雜性,從而實現提高海量數據檢索與挖掘的效率。
本發明公開了一種用于海量數據管理的數據處理方法,其特征在于,包括:
A,設置多個數據加載裝置的步驟,通過二維表結構管理不同類型的字段創建不同類型的索引,并以并發方式向通過網絡連接的至少一個數據存儲服務器加載索引數據源,實現數據加載與維護操作;
B,設置元數據管理裝置的步驟,用于記錄由所述數據加載裝置生成的索引分片的分布信息,記錄并更新所述數據存儲服務器的狀態信息,以及記錄所述索引分片與所述數據存儲服務器的對應關系;
C,在所述數據存儲服務器上設置數據管理服務裝置的步驟,用于存儲、管理所述索引分片,并根據檢索命令并發檢索索引分片,并向所述元數據管理裝置報告工作狀態。
還包括:設置多個數據檢索裝置的步驟,用于實現多機協同、多層次、不同粒度的數據并發檢索。
還包括:所述索引分片由所述數據加載裝置獨立生成,構成進行調度、負載均衡和并發檢索的基本單元。
還包括:所述索引分片之間根據時間順序排序;所述索引分片內部根據字典序排序。
所述數據檢索裝置至少設置二層次數據過濾機制,和/或二個層次數據匯總機制。
所述二個層次數據過濾機制,包括:第一級過濾機制是根據檢索命令,通過所述元數據管理裝置過濾特定的數據存儲服務器列表,并發地向過濾后的檢索服務器發送檢索命令;第二級過濾機制是所述數據存儲服務器根據檢索命令,過濾本地索引分片,符合條件的索引分片并發的執行檢索操作。
所述二個層次數據匯總機制,包括:所述數據存儲服務器匯總多個索引分片的并發檢索后結果;所述數據檢索裝置匯總多個所述數據存儲服務器返回的初次匯總結果。
本發明還公開了一種用于海量數據管理的數據處理系統,包括:多個數據加載裝置通過二維表結構,為不同類型的字段創建不同類型的索引,并通過網絡連接的至少一個數據存儲服務器加載索引數據源,實現數據加載與維護操作;元數據管理裝置,用于記錄由所述數據加載裝置生成的索引分片的分布信息,記錄并更新所述數據存儲服務器的狀態信息,以及記錄所述索引分片與所述數據存儲服務器的對應關系;數據存儲服務器,還包括數據管理服務裝置,用于存儲、管理所述索引分片,并根據檢索命令并發檢索索引分片,并向所述元數據管理裝置報告工作狀態。
還包括:多個數據檢索裝置,用于實現多機協同、多層次、不同粒度的數據并發檢索。當有新的數據存儲服務器加入時,所述數據管理服務裝置向所述元數據管理裝置報告狀態變更信息,所述元數據管理裝置把新的數據存儲服務器加入到可用服務器列表中,并開始接下來的存儲調度和定期心跳機制檢查中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110217035.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:醫院用醫護人員去向指示牌
- 下一篇:一種方便殘疾人使用電腦的輪椅





