[發明專利]容器鏡像去重方法、系統、計算機設備及存儲介質有效
| 申請號: | 202010939175.4 | 申請日: | 2020-09-09 |
| 公開(公告)號: | CN112104725B | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 程筱彪;徐雷;賈寶軍;楊雙仕 | 申請(專利權)人: | 中國聯合網絡通信集團有限公司 |
| 主分類號: | H04L67/1095 | 分類號: | H04L67/1095;H04L67/1097;H04L67/06;G06F9/455;G06F9/445 |
| 代理公司: | 北京天昊聯合知識產權代理有限公司 11112 | 代理人: | 羅建民;杜丹丹 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 容器 鏡像去重 方法 系統 計算機 設備 存儲 介質 | ||
1.一種容器鏡像去重方法,其特征在于,包括:
讀取容器鏡像文件,將容器鏡像文件劃分為不同類型的若干鏡像段;
將各個鏡像段分別切分為相同大小且低于系統最大處理能力的若干處理單元,每個處理單元包括一定數量的單個文件;
計算每個處理單元中各單個文件的摘要向量,其中,單個文件的摘要向量是將該文件的明文內容按預設規則生成一段哈希值,由一定長度的1和0組成的數組;
采用如下公式(1)根據每個處理單元中各單個文件的大小及其在該處理單元中出現的次數計算該處理單元中各單個文件的影響因子;
其中,Ii為處理單元Cj中文件filei的影響因子,FSi為文件filei的大小,Ni為文件filei在處理單元Cj中出現的次數,CSj為處理單元Cj的大小;以及,
根據每個處理單元中各單個文件的摘要向量和影響因子得到該處理單元中各單個文件的影響力向量,其中,單個文件的影響力向量為在得到各單個文件的摘要向量,即得到哈希值,再按照各單個文件的權重加權形成的加權數字串;
基于每個處理單元中各單個文件的影響力向量之和得到該處理單元的摘要向量;以及,
將同一鏡像段切分而成的各處理單元的摘要向量進行對比,找出同一鏡像段內重復的處理單元,并將重復的處理單元刪除。
2.根據權利要求1所述的方法,其特征在于,所述將容器鏡像文件劃分為不同類型的若干鏡像段,包括:
將容器鏡像文件劃分為操作系統鏡像段和應用數據鏡像段;
將操作系統鏡像段根據操作系統類別劃分為windows鏡像段、Linux鏡像段和Unix鏡像段;以及,
將應用數據鏡像段劃分為軟件類鏡像段、數據類鏡像段、配置類鏡像段和其他類鏡像段。
3.根據權利要求1所述的方法,其特征在于,所述每個處理單元中各單個文件的摘要向量使用MD5摘要算法計算得出。
4.根據權利要求1所述的方法,其特征在于,所述基于每個處理單元中各單個文件的影響力向量之和得到該處理單元的摘要向量,包括:
對每個處理單元中各單個文件的影響力向量求和得到該處理單元的序列串;以及,
對該處理單元的序列串進行降維處理得到該處理單元的摘要向量;
其中,對每個處理單元中各單個文件的影響力向量求和得到該處理單元的序列串采用如下公式(2):
其中,C[i]為處理單元的序列串的第i位的值,filej[i]為處理單元內第j個單個文件的影響力向量的第i位的值,n為處理單元內單個文件的總數。
5.根據權利要求1所述的方法,其特征在于,將同一鏡像段切分而成的各處理單元的摘要向量進行對比,找出同一鏡像段內重復的處理單元,并將重復的處理單元刪除,包括:
分別計算同一鏡像段切分而成的各處理單元的摘要向量之間的海明距離,并根據所述海明距離計算各處理單元之間的差異值;
每當有兩個處理單元之間的差異值低于預設閾值時,將其中一個處理單元判定為重復的處理單元,并將所述重復的處理單元刪除。
6.根據權利要求5所述的方法,其特征在于,所述根據所述海明距離計算各處理單元之間的差異值,采樣如下公式(3):
其中,S[a,b]表示處理單元Ca和處理單元Cb之間的差異值,HamingD(Ca,Cb)表示處理單元Ca的摘要向量和處理單元Cb的摘要向量之間的海明距離,La表示處理單元Ca的向量長度,Lb表示處理單元Cb的向量長度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國聯合網絡通信集團有限公司,未經中國聯合網絡通信集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010939175.4/1.html,轉載請聲明來源鉆瓜專利網。





