[發明專利]基于數據相似的平衡聚類壓縮方法有效
| 申請號: | 200910095378.3 | 申請日: | 2009-01-12 |
| 公開(公告)號: | CN101464910A | 公開(公告)日: | 2009-06-24 |
| 發明(設計)人: | 陳剛;陳珂;余利華;胡天磊;壽黎但 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州求是專利事務所有限公司 | 代理人: | 周 烽 |
| 地址: | 310027浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據 相似 平衡 壓縮 方法 | ||
1.一種基于數據相似的平衡聚類壓縮方法,其特征在于,包括以下步驟:
(1)文件特征向量提取,從文件數據中提取特征向量用于計算文件相似度;
(2)聚類樣本選取,即從輸入數據集D中選取部分數據作為樣本數據集,即樣本數據集為S;
(3)樣本數據聚類,利用平衡聚類方法聚類樣本數據集S,具體為:
(A)根據樣本數據集S構建相似圖G,并滿足如下條件:(i)V是頂點集,任意v∈V對應到唯一的一個數據d(v)∈S;每個頂點v有一個權重WV(v),且WV(v)=d(v).len;(ii)E是邊集,任意(x,y)∈E都有一個權重WE(x,y),且WE(x,y)=r(d(x),d(y));
(B)調用圖分割方法kmetis分割相似圖G,并為設置kmetis設定兩個約束條件:
約束1:圖分割方法需要刪除相似圖中的一些邊,方法必須最小化刪除邊的權重和,約束1要求分割出來的每個子圖中的數據之間具有高相似度,而跨子圖數據之間只有低相似度;
約束2:分割方法還必須滿足平衡約束條件,即平衡每個子圖的頂點權重和;
(4)剩余數據聚類,按照相似度歸類剩余數據X=D-S,在滿足負載均衡約束的前提下,把剩余數據歸入到最相似的類;
(5)結果壓縮,對每個類別進行單獨壓縮,默認采用BMCOM壓縮方法,同時亦可采用各種成熟的DELTA壓縮方法。
2.根據權利要求1所述基于數據相似的平衡聚類壓縮方法,其特征在于,所述步驟(1)具體為:
(A)選擇一個窗口長度w和k個整數域上的獨立置換函數{h1,h2,…,hk},每個置換函數相互獨立;
(B)從前往后逐字節掃描輸入文件f,利用高效的Rabin指紋函數,計算當前滑動窗口內數據的指紋,記該指紋為fp,利用上述k個獨立置換函數作用于指紋fp,得到k個置換指紋h1(fp),h2(fp),…,hk(fp),記文件f的特征向量F(f)為{F1(f),F2(f),…,Fk(f)},特征向量的第i維Fi(f)等于第i個置換函數所產生的置換指紋的最小值,即Fi(f)=MIN(Fi(f),hi(fp));
(C)掃描完整個文件之后,可計算出文件的特征向量F(f),文件數據相似度r(x,y)根據文件x和y的特征向量定義為|F(x)∩F(y)|/|F(x)∪F(y)|。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910095378.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于指背關節紋理的身份特征識別方法
- 下一篇:Web服務組合系統及方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





