[發明專利]基于Hadoop分布式文件系統的數據備份方法及系統在審
| 申請號: | 202110233087.7 | 申請日: | 2021-03-03 |
| 公開(公告)號: | CN112800019A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 段軍紅;靳丹;張旭;楊波;王瓊 | 申請(專利權)人: | 國網甘肅省電力公司;國網甘肅省電力公司信息通信公司;國網電力科學研究院有限公司;南京航空航天大學 |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06F16/13;G06F11/14;G06F21/44;G06F21/64 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 730070 甘*** | 國省代碼: | 甘肅;62 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 hadoop 分布式 文件系統 數據 備份 方法 系統 | ||
1.一種基于Hadoop分布式文件系統的數據備份方法,其特征在于,通過HDFS客戶端對文件夾通過快照的方式備份,通過客戶端生成文件夾的時間點快照,文件夾內的數據存儲至外部存儲介質。
2.根據權利要求1所述的基于Hadoop分布式文件系統的數據備份方法,其特征在于,包括以下步驟:
(1)創建HDFS客戶端;
(2)創建文件夾快照:通過HDFS客戶端讀取當前集群的快照信息,對備份文件夾生成只讀時間點快照,不拷貝任何數據塊;
(3)數據備份:將外部存儲介質與HDFS文件系統建立連接,讀取文件內容,寫入到外部存儲介質;
(4)元數據元備份:通過HDFS客戶端,讀取文件/文件夾的元數據,連接遠程存儲索引庫,將元數據寫入文件索引數據庫中。
3.根據權利要求2所述的基于Hadoop分布式文件系統的數據備份方法,其特征在于,所述步驟(1)包括:
(11)在Hadoop管理系統界面下載HDFS服務客戶端和用戶憑據,獲取HDFS配置信息和Kerberos認證信息,并將配置放置在代理節點上;
(12)通過代理框架下發備份作業,在作業中讀取獲取到的HDFS配置和Kerberos認證,創建HDFS客戶端。
4.根據權利要求2所述的基于Hadoop分布式文件系統的數據備份方法,其特征在于,所述步驟(2)中,若文件夾是增量備份,則對前后兩個快照進行對比,獲取文件夾的修改信息。
5.根據權利要求2所述的基于Hadoop分布式文件系統的數據備份方法,其特征在于,所述步驟(2)的外部存儲介質為遠程存儲介質。
6.根據權利要求2所述的基于Hadoop分布式文件系統的數據備份方法,其特征在于,所述步驟(4)的元數據包括分布式文件的屬性信息和分布式文件在外部存儲介質中的存儲位置信息。
7.根據權利要求6所述的基于Hadoop分布式文件系統的數據備份方法,其特征在于,還包括以下步驟:當系統中的文件損壞或丟失時,HDFS客戶端通過獲取文件在外部存儲介質中的位置信息,選擇性的恢復部分文件,而不需要恢復全部的快照。
8.一種基于Hadoop分布式文件系統的數據備份系統,其特征在于,包括HDFS系統以及與該系統連接的存儲服務器,所述儲服務器包含存儲介質和文件索引數據庫;所述存儲介質用于保存系統文件數據,文件索引數據庫用于保存系統文件元數據;所述HDFS系統中還包括備份服務器,其中的備份代理節點上安裝有代理服務,服務器下載Hadoop配置以及Kerberos用戶認證,通過代理服務創建HDFS客戶端,通過HDFS客戶端與Hadoop集群進行交互。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網甘肅省電力公司;國網甘肅省電力公司信息通信公司;國網電力科學研究院有限公司;南京航空航天大學,未經國網甘肅省電力公司;國網甘肅省電力公司信息通信公司;國網電力科學研究院有限公司;南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110233087.7/1.html,轉載請聲明來源鉆瓜專利網。





