[發明專利]一種海量文件檔案分布式聚合壓縮與單一式抽取的方法有效
| 申請號: | 202110208570.X | 申請日: | 2021-02-24 |
| 公開(公告)號: | CN112860646B | 公開(公告)日: | 2022-12-02 |
| 發明(設計)人: | 陳繼杰 | 申請(專利權)人: | 上海泰宇信息技術股份有限公司 |
| 主分類號: | G06F16/174 | 分類號: | G06F16/174;G06F16/16;G06F21/60;G06F21/62;G06F21/64 |
| 代理公司: | 湖州果得知識產權代理事務所(特殊普通合伙) 33365 | 代理人: | 戴心同 |
| 地址: | 201108 上海市閔*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 海量 文件 檔案 分布式 聚合 壓縮 一式 抽取 方法 | ||
1.一種海量文件檔案分布式聚合壓縮與單一式抽取的方法,其特征在于,包括以下階段:
文件分析階段:通過對目標文件進行統一化分析、數據信息分組、壓縮率控制操作,來計算相應的預壓縮分組方案,具體步驟為:
一、對目標文件進行分析,獲取文件特征信息,文件特征信息包括文件名、文件類型、文件大小、文件HASH值、修改時間和創建時間,并依據文件類型和文件大小進行倒序排列,形成待備份文件序列;
二、根據設定的單個壓縮包文件大小和壓縮等級,將待備份文件序列按文件類型進行抽樣分析,獲取各文件類型在不同壓縮等級下的壓縮率,壓縮等級分為僅存儲、最快、快速、標準、較好、最好,其壓縮比從僅存儲到較好逐級遞增;
其抽樣分析的規則如下:
1)以文件后綴名為標準,進行文件類型分類組織;
2)將每種文件類型的文件各抽取5個進行預訂的壓縮,若少于5個則全部抽取進行預訂的壓縮;
3)獲取相應文件類型的壓縮文件大小,計算出壓縮率,計算規則為:文件壓縮率=文件壓縮后大小/文件原始大小;
三、遍歷待備份文件序列中的文件,通過文件大小、文件類型壓縮率,推算出當前文件壓縮后的大小,計算方法為:文件壓縮后的大小=文件大小*文件壓縮率;
四、依據推算出的各文件大小進行統一聚合,形成待壓縮文件分組,待壓縮文件分組的方法為:
(1)按照文件分析階段步驟一生成的文件序列,從第一個文件開始依次累加步驟二推算出的文件壓縮后大小;
1)當累計文件大小大于設定的單個壓縮包文件大小時,跳過當前文件,繼續累計下一個文件;
2)當累計文件大小等于設定的單個壓縮包文件大小時,完成一個文件分組聚合,并開始下一個文件分組的聚合;
(2)當最后一個文件完成聚合時,將當前分組已聚合的文件形成一個新的分組,并結束分組過程;
文件壓縮階段:通過文件分析階段得到的預壓縮分組方案,對分組方案中的文件進行指定方式的壓縮與打包,并記錄對應文件的校驗信息;
安全校驗階段:文件壓縮階段完成后,讀取壓縮文件信息,與預壓縮分組方案中的內容進行核對校驗,若失敗,則重新進行壓縮并校驗直至成功。
2.根據權利要求1所述的一種海量文件檔案分布式聚合壓縮與單一式抽取的方法,其特征在于,所述文件壓縮階段的具體步驟為:
一、遍歷待壓縮文件分組,分析當前系統資源占用情況,在系統資源空閑的情況下,將指定分組放入壓縮線程中;
二、選擇壓縮等級:壓縮等級分為僅存儲、最快、快速、標準、較好和最好,壓縮比從僅存儲到較好逐級遞增;
三、選擇加密方式:采用普通加密、AES128加密算法或AES256加密算法并計算壓縮包的HASH值,加密密碼用于解密壓縮包,HASH值用于校驗壓縮包的完整性;
四、根據預設的文件壓縮等級、分卷大小、加密方式、加密密碼對分組文件進行7Z/ZIP壓縮。
3.根據權利要求1所述的一種海量文件檔案分布式聚合壓縮與單一式抽取的方法,其特征在于,所述安全校驗階段的具體步驟為:
一、根據加密方式,讀取文件壓縮后的數據流,從而獲取壓縮包中的文件特征信息、HASH值校驗信息;
二、通過步驟一獲取到的文件特征信息與HASH值校驗信息,與源分組文件進行一致性校驗比對,比對內容有:文件名、文件類型、文件大小、文件HASH值、修改時間、創建時間、壓縮包HASH值;
三、若步驟二中比對結果一致,則校驗通過;比對結果不一致,則校驗失敗,刪除該壓縮文件,并重新進行“文件壓縮階段”。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海泰宇信息技術股份有限公司,未經上海泰宇信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110208570.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據備份私有云存儲與下載方法
- 下一篇:一種卷繞模芯





