[發明專利]一種海量文件檔案分布式聚合壓縮與單一式抽取的方法有效
| 申請號: | 202110208570.X | 申請日: | 2021-02-24 |
| 公開(公告)號: | CN112860646B | 公開(公告)日: | 2022-12-02 |
| 發明(設計)人: | 陳繼杰 | 申請(專利權)人: | 上海泰宇信息技術股份有限公司 |
| 主分類號: | G06F16/174 | 分類號: | G06F16/174;G06F16/16;G06F21/60;G06F21/62;G06F21/64 |
| 代理公司: | 湖州果得知識產權代理事務所(特殊普通合伙) 33365 | 代理人: | 戴心同 |
| 地址: | 201108 上海市閔*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 海量 文件 檔案 分布式 聚合 壓縮 一式 抽取 方法 | ||
本發明涉及數據安全領域,具體涉及一種海量文件檔案分布式聚合壓縮與單一式抽取的方法,包括文件分析階段:通過對目標文件進行統一化分析、數據信息分組、壓縮率控制等操作,來計算相應的預壓縮分組方案;文件壓縮階段:通過文件分析階段得到的預壓縮分組方案,對分組方案中的文件進行指定方式的壓縮與打包,并記錄對應文件的校驗信息;安全校驗階段:文件壓縮階段完成后,讀取壓縮文件信息,與預壓縮分組方案中的內容進行核對校驗,若失敗,則重新進行壓縮并校驗直至成功。
技術領域
本發明涉及數據安全領域,具體涉及一種海量文件檔案分布式聚合壓縮與單一式抽取的方法。
背景技術
檔案文件打包:1、可使原文件體積大幅度減少,節約存儲空間和傳輸時間;2、可整合電腦中零散的檔案文件,以便在網絡傳輸時,只需傳輸單一文件;3、可對打包后的檔案文件進行加密,避免在上傳下載過程中被病毒感染或人為篡改,增加數據可靠性。
然而,傳統的文件打包方式,只能將所有目標文件進行統一打包,缺少更靈活和自由的打包方案。當壓縮包發生損壞時,壓縮包內的所有文件均會損壞。此外,在統一打包的過程中,需要同等級的磁盤空間作為臨時交換空間。如果目標文件數量過大,將存在磁盤空間不足的情況。壓縮完成后,所有的文件均在一個壓縮包內,不便于后續管理和使用。
發明內容
本發明的目的,是為了解決背景技術中的問題,提供一種海量文件檔案分布式聚合壓縮與單一式抽取的方法。
本發明的上述技術目的是通過以下技術方案得以實現的:
一種海量文件檔案分布式聚合壓縮與單一式抽取的方法,包括以下階段:
文件分析階段:通過對目標文件進行統一化分析、數據信息分組、壓縮率控制等操作,來計算相應的預壓縮分組方案;
文件壓縮階段:通過文件分析階段得到的預壓縮分組方案,對分組方案中的文件進行指定方式的壓縮與打包,并記錄對應文件的校驗信息;
安全校驗階段:文件壓縮階段完成后,讀取壓縮文件信息,與預壓縮分組方案中的內容進行核對校驗,若失敗,則重新進行壓縮并校驗直至成功。
作為優選,所述文件分析階段的具體步驟為:
一、對目標文件進行分析,獲取文件特征信息,文件特征信息包括文件名、文件類型、文件大小、文件HASH值、修改時間和創建時間,并依據文件類型和文件大小進行倒序排列,形成待備份文件序列;
二、根據設定的單個壓縮包文件大小和壓縮等級,將待備份文件序列按文件類型進行抽樣分析,獲取各文件類型在不同壓縮等級(僅存儲、最快、快速、標準、較好、最好,壓縮比從僅存儲到較好逐級遞增)下的壓縮率;
其抽樣分析的規則如下:
1)以文件后綴名為標準,進行文件類型分類組織;
2)將每種文件類型的文件各抽取5個(少于5個則全部抽取),進行預訂的壓縮;
3)獲取相應文件類型的壓縮文件大小,計算出壓縮率,計算規則為:文件壓縮率=文件壓縮后大小/文件原始大小;
三、遍歷待備份文件序列中的文件,通過文件大小、文件類型壓縮率,推算出當前文件壓縮后的大小,計算方法為:文件壓縮后的大小=文件大小*文件壓縮率;
四、依據推算出的各文件大小進行統一聚合,形成待壓縮文件分組。
作為優選,待壓縮文件分組的方法為:
(1)按照文件分析階段步驟一生成的文件序列,從第一個文件開始依次累加步驟二推算出的文件壓縮后大??;
1)當累計文件大小大于設定的單個壓縮包文件大小時,跳過當前文件,繼續累計下一個文件;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海泰宇信息技術股份有限公司,未經上海泰宇信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110208570.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據備份私有云存儲與下載方法
- 下一篇:一種卷繞模芯





