[發(fā)明專利]一種基于數(shù)據(jù)庫的重復(fù)數(shù)據(jù)刪除方法無效
| 申請?zhí)枺?/td> | 200910016076.2 | 申請日: | 2009-06-24 |
| 公開(公告)號(hào): | CN101582076A | 公開(公告)日: | 2009-11-18 |
| 發(fā)明(設(shè)計(jì))人: | 劉正偉 | 申請(專利權(quán))人: | 浪潮電子信息產(chǎn)業(yè)股份有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F11/14 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250013山東*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù)庫 重復(fù) 數(shù)據(jù) 刪除 方法 | ||
1、方法領(lǐng)域
本發(fā)明是一種數(shù)據(jù)縮減方法,通常用于基于磁盤的備份系統(tǒng),旨在減少存儲(chǔ)系統(tǒng)中使用的 存儲(chǔ)容量。采用“冗余數(shù)據(jù)刪除”方法可以將存儲(chǔ)的數(shù)據(jù)縮減為原來的1/20,從而讓出更多的 備份空間,不僅可以使磁盤上的備份數(shù)據(jù)保存更長的時(shí)間,而且還可以節(jié)約離線存儲(chǔ)時(shí)所需的 大量的帶寬。
2、方法背景
存儲(chǔ)空間不足不只是要添購存儲(chǔ)設(shè)備,更要面臨調(diào)整存儲(chǔ)架構(gòu)后接踵而至的種種設(shè)定工作。 這些工作的復(fù)雜繁瑣就不用說了,在擴(kuò)充存儲(chǔ)容量的過程中,更可能需要停機(jī),這會(huì)嚴(yán)重影響 到企業(yè)的正常營運(yùn)。企業(yè)為了保護(hù)數(shù)據(jù)必須定期執(zhí)行數(shù)據(jù)備份,這是數(shù)據(jù)快速累積的原因之一。 尤其現(xiàn)今有些企業(yè)開始先備份到速度較快的磁盤,再逐次備份至磁帶等設(shè)備,對于必須趕在當(dāng) 日下班至隔日上班前完成大量備份的企業(yè)而言,磁盤備份是個(gè)好方法,備份快、回復(fù)也快,但 磁盤備份無疑會(huì)加速磁盤空間的消耗。
重復(fù)數(shù)據(jù)刪除方法如字義所言,就是不存儲(chǔ)重復(fù)的部分,以減少空間耗用。以重復(fù)性最高 的數(shù)據(jù)備份來說,如果每個(gè)備份檔的差異只有30%,也就代表有70%的空間白白浪費(fèi)。重復(fù)數(shù)據(jù) 刪除方法就是要想辦法找出相同的部分,相同的只存儲(chǔ)一份,以索引方法來記錄,需要還原時(shí) 就能回溯計(jì)算出原來文件的組成型式。
重復(fù)數(shù)據(jù)刪除方法支持在已有的磁盤設(shè)備上存儲(chǔ)更多的備份數(shù)據(jù)。因此采用“重復(fù)數(shù)據(jù)刪 除”方法可以增加保存?zhèn)浞輸?shù)據(jù)的時(shí)間,減少數(shù)據(jù)中心的消耗,降低成本。如果刪除重復(fù)數(shù)據(jù) 后再通過WAN發(fā)送,那么就能夠節(jié)省大量的帶寬,并且可以取代磁帶實(shí)現(xiàn)網(wǎng)上離線備份。
因此如何提供一種方法,使其應(yīng)用在數(shù)據(jù)備份系統(tǒng)中,能夠增加磁盤備份利用率,節(jié)約備 份空間是目前數(shù)據(jù)急劇增加面臨的挑戰(zhàn)。
3、發(fā)明內(nèi)容
一種基于數(shù)據(jù)庫的重復(fù)數(shù)據(jù)刪除方法,該系統(tǒng)將文件比較方法和數(shù)據(jù)庫方法有機(jī)的應(yīng)用在 一起,采用“冗余數(shù)據(jù)刪除”方法可以將存儲(chǔ)的數(shù)據(jù)縮減為原來的1/20,從而讓出更多的備份 空間,不僅可以使磁盤上的備份數(shù)據(jù)保存更長的時(shí)間,而且還可以節(jié)約離線存儲(chǔ)時(shí)所需的大量 的帶寬。該系統(tǒng)體系結(jié)構(gòu)包括:界面管理模塊(1)、文件管理模塊(2)、鏈接轉(zhuǎn)移模塊(3)、 文件比較模塊(4)、指紋模塊(5)、數(shù)據(jù)管理模塊(6)和數(shù)據(jù)庫(7),其中:
界面管理模塊(1)為用戶提供管理界面,方便用戶交互,提供文件查詢、瀏覽,讀取文件 等功能。
文件管理模塊(2)主要負(fù)責(zé)文件管理,比如文件的新建、刪除、修改,負(fù)責(zé)文件的讀寫, 另外在文件變化時(shí)負(fù)責(zé)將新文件與舊文件進(jìn)行比較,將文件信息記錄到數(shù)據(jù)庫中。另外在文件 顯示時(shí)負(fù)責(zé)從數(shù)據(jù)庫中讀出文件和目錄信息按照文件目錄樹的形式進(jìn)行顯示。
鏈接轉(zhuǎn)移模塊(3)在一個(gè)新文件被寫入時(shí),首先會(huì)調(diào)研指紋模塊(5)為這個(gè)文件生成唯一 的HASH散列,然后根據(jù)這個(gè)HASH散列從數(shù)據(jù)庫中查找是否存在,如果已經(jīng)存在,則在數(shù)據(jù)庫 中將此文件的鏈接與已存在的文件,鏈接配置。
文件比較模塊(4)文件兩文件是否相同。
指紋模塊(5)讀取文件屬性為每一個(gè)文件生成一個(gè)指紋標(biāo)示,此標(biāo)示為一個(gè)HASH散列, 不同的文件其HASH散列是不一樣的,唯一的。如果兩個(gè)文件的HASH散列是一樣的,則說明這 兩個(gè)文件是相同的,只需要備份一份即可。
數(shù)據(jù)管理模塊(6)為數(shù)據(jù)庫操作管理模塊,主要負(fù)責(zé)和數(shù)據(jù)庫(7)交互,寫入記錄到數(shù)據(jù)庫 (7),從數(shù)據(jù)庫中查收文件信息等功能。
數(shù)據(jù)庫(7)主要用于數(shù)據(jù)存儲(chǔ)和查詢功能,一般可以為SQLite、mysql、sqlserver等數(shù)據(jù)庫。
在一個(gè)典型的配置環(huán)境里,如果是寫入文件,文件寫入到磁盤之后,指紋模塊(5)根據(jù)文 件的內(nèi)容生成一個(gè)指紋標(biāo)示HASH散列(9),不同的文件其HASH散列是不一樣的,唯一的。將 生成的HASH散列通過數(shù)據(jù)管理模塊(6)到數(shù)據(jù)庫(7)中去查詢是否有同樣HASH散列(9)的文件 存在,如果沒有就保存到磁盤上,同時(shí)將文件信息,包括文件名、源文件路徑、寫入時(shí)間、HASH 散列值作為一條記錄保存到數(shù)據(jù)庫中。如果已經(jīng)存在此文件,則文件不需要保存,只是通過鏈 接轉(zhuǎn)移模塊(3)將文件信息鏈接到已有的文件路徑上,并且作為一條新記錄插入到數(shù)據(jù)庫中。
如果是讀文件則先從數(shù)據(jù)庫中將文件和目錄信息讀取出來,并且以文件樹的形式顯示。如 果有多個(gè)文件的HASH散列(9)相同,則這多個(gè)文件同時(shí)指向一個(gè)具體的文件。當(dāng)需要讀取或 者拷貝時(shí),就直接從文件路徑讀取真實(shí)的文件。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮電子信息產(chǎn)業(yè)股份有限公司,未經(jīng)浪潮電子信息產(chǎn)業(yè)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910016076.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)庫
- 數(shù)據(jù)庫管理系統(tǒng)及數(shù)據(jù)庫
- 數(shù)據(jù)庫構(gòu)筑裝置、數(shù)據(jù)庫檢索裝置、數(shù)據(jù)庫裝置、數(shù)據(jù)庫構(gòu)筑方法、以及數(shù)據(jù)庫檢索方法
- 數(shù)據(jù)庫和數(shù)據(jù)庫處理方法
- 數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫更新方法、數(shù)據(jù)庫以及數(shù)據(jù)庫更新程序
- 容器數(shù)據(jù)庫
- 數(shù)據(jù)庫同步方法及數(shù)據(jù)庫
- 一種MongoDB數(shù)據(jù)庫對象復(fù)制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲(chǔ)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)庫語句執(zhí)行方法及裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





