[發(fā)明專利]基于Map/Dedup的數(shù)據(jù)存儲云化和云備份方法有效
| 申請?zhí)枺?/td> | 201110305170.7 | 申請日: | 2011-10-10 |
| 公開(公告)號: | CN102436408A | 公開(公告)日: | 2012-05-02 |
| 發(fā)明(設計)人: | 鄒恒明;金娟;文珊珊 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F11/14 | 分類號: | G06F11/14 |
| 代理公司: | 上海旭誠知識產權代理有限公司 31220 | 代理人: | 王萍萍 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 map dedup 數(shù)據(jù) 存儲 備份 方法 | ||
技術領域
本發(fā)明涉及一種計算機存儲領域的海量數(shù)據(jù)存儲和備份方法,尤其涉及一種基于Map/Dedup(映射/重復數(shù)據(jù)刪除)的數(shù)據(jù)存儲云化和云備份方法。
背景技術
在當今的信息化、網絡化社會里,計算機在工作和生活中扮演著極其重要的角色。越來越多的企業(yè)、商家、政府機關和個人通過計算機來獲取信息、處理信息,同時將大量的信息以數(shù)據(jù)文件的形式保存在計算機中。隨著信息社會的發(fā)展,越來越多的信息被數(shù)據(jù)化,尤其是伴隨著Internet、云計算、物聯(lián)網等技術的發(fā)展,數(shù)據(jù)呈爆炸式增長。由此產生的海量數(shù)據(jù)給以數(shù)據(jù)為中心的各大中型企業(yè)的高效存儲帶來了新的挑戰(zhàn)包括:(1)面對計算機產生的各行各業(yè)的數(shù)據(jù),服務器需要進行高效的管理;(2)面對部分重要的數(shù)據(jù)丟失或者發(fā)生其他不可預見的事故,個人、商家、企業(yè)乃至政府機關需要最小化此類事故造成的損失。
由此,人們開始關注如何高效存儲數(shù)據(jù)以及如何確保數(shù)據(jù)完好的問題。面對信息量越來越豐富、數(shù)據(jù)量越來越大,很多海量數(shù)據(jù)平臺正逐步出現(xiàn)數(shù)據(jù)存儲瓶頸、數(shù)據(jù)備份恢復龐大而緩慢等問題,而數(shù)據(jù)存儲云化和云備份技術因此應運而生。
申請?zhí)枮?650331的美國專利“高效大規(guī)模數(shù)據(jù)處理系統(tǒng)和方法”,針對大規(guī)模數(shù)據(jù)的計算提出了一種高效數(shù)據(jù)處理系統(tǒng)和方法,即MapReduce技術:Map模塊讀取輸入數(shù)據(jù),并對數(shù)據(jù)進行特定于應用的Map操作,生成中間數(shù)據(jù)值,再由Reduce模塊整合中間值得到最后計算結果進行輸出。MapReduce是一種用于分布系統(tǒng)的編程模型,支持在計算機集群中對超大數(shù)據(jù)集進行分布式處理。該系統(tǒng)與方法具有極大的擴展性和極強的容錯性,同時為高效地處理海量信息提供了支持,特別適合需要高吞吐量訪問的具有超大數(shù)據(jù)集的應用程序,但是,它僅僅只是應用于大規(guī)模數(shù)據(jù)的查詢和計算,并沒有為存儲領域的海量數(shù)據(jù)的存儲與備份提供很好的解決方案。
申請?zhí)枮?00610001299.8的中國專利“數(shù)據(jù)恢復方法”提出了一種數(shù)據(jù)備份方法,將主計算機的數(shù)據(jù)備份在至少一臺備份機算機上。該方法要求本地與遠程之間進行完整的文件交換,從而產生了大量的網絡傳輸,在延長了數(shù)據(jù)恢復時間的同時還帶來了傳輸安全隱患,更重要的是,反復存儲同一文件的不同版本(但這些不同版本的大部分內容是相同的),會導致大量的存儲空間浪費。
因此,本領域的技術人員致力于開發(fā)一種數(shù)據(jù)存儲云化和云備份方法及其系統(tǒng),使得在保證海量數(shù)據(jù)高效存儲的同時,盡可能高效地利用存儲空間,同時保證數(shù)據(jù)的安全。
發(fā)明內容
有鑒于現(xiàn)有技術的上述缺陷,本發(fā)明所要解決的技術問題是提供一種數(shù)據(jù)存儲云化和云備份方法及其系統(tǒng),通過將數(shù)據(jù)存儲云化,即通過分布式架構,并且通過并行計算提高采集數(shù)據(jù)的存儲效率;通過備份手段,更好地對海量數(shù)據(jù)進行備份恢復以保障數(shù)據(jù)的安全。
為實現(xiàn)上述目的,本發(fā)明提供了一種數(shù)據(jù)存儲云化和云備份方法,其特征在于,包括數(shù)據(jù)存儲云化的步驟和服務器數(shù)據(jù)備份的步驟,其中:
所述數(shù)據(jù)存儲云化的步驟包括如下步驟:
步驟11,定制映射(Map)模塊的映射規(guī)則以及重復數(shù)據(jù)刪除(Dedup)模塊的重復數(shù)據(jù)刪除方式;
步驟12,Map服務器抓取或者接收數(shù)據(jù)源的數(shù)據(jù);
步驟13,所述Map服務器判斷所述數(shù)據(jù)源的所述數(shù)據(jù)是否需要進行預處理,如果不需要進行預處理,直接執(zhí)行步驟(14),如果需要進行預處理,則通過所述Map服務器的預處理模塊對所述數(shù)據(jù)進行預處理,得到結構化數(shù)據(jù);
步驟14,所述Map模塊將所述結構化數(shù)據(jù)按所述映射規(guī)則映射到相應的存儲服務器上;
步驟15,所述存儲服務器讀取所述結構化數(shù)據(jù),所述重復數(shù)據(jù)刪除模塊按所述重復數(shù)據(jù)刪除方式對所述結構化數(shù)據(jù)進行重復數(shù)據(jù)刪除;
步驟16,所述存儲服務器存儲從復數(shù)據(jù)刪除完成后的數(shù)據(jù);
所述服務器數(shù)據(jù)備份的步驟包括如下步驟:
步驟21,所述存儲服務器掃描源文件的歷史備份,決定是否備份所述源文件及備份方式;
步驟22,所述存儲服務器打開所述源文件的增量備份的索引文件和內容文件,以及所述源文件的完全備份文件,以備讀取;
步驟23,所述存儲服務器根據(jù)所述增量備份的所述索引文件,建立索引網絡;
步驟24,所述存儲服務器根據(jù)所述索引網絡,從始至末依次將所述增量備份中的各數(shù)據(jù)塊中的數(shù)據(jù)讀出到內存;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110305170.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





