[發明專利]一種網絡文件系統中數據的實時去重和傳輸方法有效
| 申請號: | 201010210339.6 | 申請日: | 2010-06-25 |
| 公開(公告)號: | CN101917396A | 公開(公告)日: | 2010-12-15 |
| 發明(設計)人: | 唐力;汪東升 | 申請(專利權)人: | 清華大學 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L29/08;G06F17/30 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 羅文群 |
| 地址: | 100091*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 文件系統 數據 實時 傳輸 方法 | ||
技術領域
本發明涉及一種網絡文件系統中數據的實時去重和傳輸方法,屬于計算機數據存儲技術領域。
背景技術
長期以來,如何用盡可能少的空間儲存盡可能多的數據以及如何以盡可能低的網絡帶寬開銷傳輸盡可能多的信息一直是網絡存儲領域最核心問題。減少對文件中重復數據的存儲和傳輸是解決上述問題的關鍵技術所在。
數據去重技術又稱為重復數據刪除技術,興起于本世紀初期,近年來得到普及。數據去重的思想并不復雜:首先發掘在不同文件、同一文件不同版本、甚至同一版本的不同位置出現的相同數據單元,然后對內容互不相同的數據單元建立索引,這樣就能夠對每種內容的數據單元只存儲一份內容,而在數據單元出現的位置僅記錄該數據單元的索引。盡管數據去重技術炙手可熱,但目前主要應用于數據同步、備份或歸檔階段,如Sun公司提出的網絡文件系統ZFS和同步備份工具Dropbox等。
Muthitacharoen等人在2001年的第18屆ACM?SOSP大會論文集中發表了“A?Low-Bandwidth?Network?File?System”,其中利用上述思想減少網絡帶寬開銷。但是,在其方法中,只有當文件被關閉以后,才對整個文件進行分塊和向服務器端同步,其方法至少存在下述若干顯著缺點:一、數據切塊和去重不是實時進行,客戶端的新數據不能被及時傳輸到服務器端;二、切塊效率低下,即使只修改文件中極小一部分內容,也需要對整個文件都重新進行切塊;三、新打開一個文件時,需要先將該文件的所有數據塊拼接成一個臨時文件,才能對該文件進行操作,因而需等候相當長時間。
現有的其它網絡系統,如網絡文件系統(NFS)和服務器消息塊(SMB)等,則沒有采用數據去重技術,也無法提供減少存儲空間占用和網絡數據傳輸的功能。
發明內容
本發明的目的是提出一種網絡文件系統中數據的實時去重和傳輸方法,通過文件系統驅動截獲客戶端的應用程序創建文件及向文件中寫入的操作命令,實時進行數據的分塊和去重,并只將新產生的數據塊傳輸到服務器端,從而在根本上實現以數據塊為基本存儲單元的網絡文件系統及其存儲和組織結構,達到節省本地存儲空間和網絡傳輸帶寬的目的。
本發明提出的網絡文件系統中數據的實時去重和傳輸方法,包括以下步驟:
(1)在網絡文件系統的客戶端和服務器端各設置文件元數據表、數據塊索引表和文件組成表;所述的文件元數據表記錄網絡文件系統中每個文件的元數據,該元數據包括文件標識、文件名、文件所在文件夾的標識、文件大小、文件類型、訪問權限以及文件的創建、修改和訪問時間;所述的數據塊索引表記錄網絡文件系統中文件的數據塊的標識以及與標識相對應的數據塊的引用次數,其中數據塊的標識為該數據塊內容的哈希值;所述的文件組成表記錄組成網絡文件系統中的文件的數據塊的信息,包括文件標識、起始位置、數據塊大小和數據塊標識,由其中的起始位置和數據塊大小決定數據區域;
在網絡文件系統的客戶端設置一個待發送消息隊列,用于存儲客戶端待發送給服務器端的數據更新消息;
(2)客戶端通過文件系統驅動接收和響應客戶端應用程序對網絡文件系統發起的操作命令,該操作命令包括創建新文件、向已有文件寫入數據、從已有文件讀取數據和刪除已有文件;
(2-1)當客戶端的文件系統驅動接收到創建新文件的操作命令時,在客戶端的上述文件元數據表中記錄被創建文件的元數據,并將該元數據封裝成一個文件元數據更新消息,再將該消息添加到客戶端的上述待發送消息隊列的隊尾;
(2-2)當客戶端的文件系統驅動接收到向已有文件寫入數據的操作命令時,進行以下操作:
(2-2-1)根據操作命令中被寫文件的文件標識、寫入位置和寫入數據大小,從客戶端的上述文件組成表中檢索屬于該被寫文件的兩個數據塊標識,且與該兩個數據塊標識相對應的兩個數據塊為與被寫入數據區域相互重疊的首、尾兩個數據塊;
(2-2-2)根據檢索到的數據塊標識,從客戶端存儲的文件中讀取與該數據塊標識相對應的數據塊內容;
(2-2-3)將讀出的數據塊內容中與被寫入數據區域相不重疊的數據拼接到被寫入數據的兩側,得到拼接后的數據及數據區域;
(2-2-4)從客戶端的上述文件組成表中檢索與屬于該被寫文件、且起始位置位于上述步驟(2-2-3)數據區域之內的數據塊相對應的數據塊標識;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010210339.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





