[發明專利]一種基于關聯特性的多維元數據管理方法和系統有效
| 申請號: | 201310090042.4 | 申請日: | 2013-03-20 |
| 公開(公告)號: | CN103218404A | 公開(公告)日: | 2013-07-24 |
| 發明(設計)人: | 華宇;黃大彰;馮丹;劉進軍;聶振華;蔡娟 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 華中科技大學專利中心 42201 | 代理人: | 朱仁玲 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關聯 特性 多維 數據管理 方法 系統 | ||
技術領域
本發明屬于計算機數據存儲領域,更具體地,涉及一種基于關聯特性的多維元數據管理方法和系統。
背景技術
隨著云計算、云存儲時代的到來,信息存儲系統中的數據規模的幾何級數式增長使得對數據的高效存儲、管理與查詢等問題也變得越來越困難。海量數據規模的不斷增長導致了數據存儲和維護的難度不斷增加,研究表明,實際中海量存儲系統的文件數據具有顯著的關聯特征。關聯特性是指文件在其屬性空間中具有的聚集現象,其本質上體現了文件之間的相關性。通常情況下,我們經常使用的是文件間的時間關聯性與空間關聯性,時間關聯性表現在時間相近的文件在一段時間內會被立即訪問,而空間關聯性表現在位于相鄰位置的文件具有很大可能性被后繼請求訪問。除了時間關聯性與空間關聯性之外,還有眾多的關聯性體現在文件與文件之間,比如文件大小、文件的訪問頻率、文件的創建者等。但是已有的研究成果明顯缺乏對文件在更多屬性上關聯性的研究。考慮更多屬性上的關聯性,有助于更加準確地區分文件之間的相關性,基于多維屬性空間中的距離度量,兩個文件間的相關性可以明確的計算出來。面對海量數據處理,運用一定的方法來度量數據之間的關聯性,并由此將數據劃分成多個聚集的空間,將為后繼處理帶來明顯的好處。
然而,現有的元數據管理方法存在以下問題:
(1)沒有充分利用元數據的多維屬性間的關聯特性,表現在現有方法往往只利用了元數據的時間屬性與空間屬性,沒有充分地挖掘元數據之間的關聯特性。
(2)不能有效的支持復雜的查詢請求,對于涉及元數據多維屬性的查詢請求,如范圍查詢、TopK查詢等,現有方法不能有效地處理;
(3)可擴展性差,當元數據數目隨著系統的擴展而變多時,現有方法的查詢響應時間將顯著增加。
發明內容
針對現有技術的缺陷,本發明的目的在于提供一種基于關聯特性的多維元數據管理方法,旨在解決海量存儲系統中的元數據管理問題,其能夠充分地利用元數據的多維屬性間的關聯特性,滿足復雜查詢需求,并具有良好的可擴展性。
為實現上述目的,本發明提供了一種基于關聯特性的多維元數據管理方法,包括以下步驟:
(1)在元數據服務器集群中,對每臺元數據服務器上的元數據根據關聯特性進行劃分,以生成元數據集合與集合統計文件;
(2)根據集合統計文件,對元數據集群進行分組操作,以生成多個元數據服務器分組與分組配置文件;
(3)根據集合統計文件,分別在每臺元數據服務器上建立本地索引表;本地索引表用于管理每臺元數據服務器上的元數據集合,索引表中每一項記錄了集合統計文件中的元數據集合編號,以及該元數據集合編號對應的元數據集合在磁盤中的存儲地址;
(4)根據分組配置文件與集合統計文件,分別在每個元數據服務器分組內建立組索引表;
(5)根據組索引表,建立元數據服務器集群的頂層索引表;
(6)接收來自用戶的查詢請求,并根據查詢請求依次查詢頂層索引表、組索引表與本地索引表,并返回查詢結果;其中用戶查詢請求包括點查詢、范圍查詢和TopK查詢。
步驟(1)包括以下子步驟:
(1-1)確定表示每臺元數據服務器上元數據之間關聯特性的多維屬性;
(1-2)將元數據的多維屬性構造成固定長度的輸入向量,該輸入向量作為位置靈敏哈希函數的輸入值;
(1-3)使用相同的位置靈敏哈希函數對輸入向量進行哈希計算,得到的哈希值作為該輸入向量對應的元數據的唯一標識;
(1-4)將具有相同哈希值的元數據劃分到同一元數據集合中,并以該哈希值作為該元數據集合的編號;
(1-5)統計元數據集合中元數據的劃分情況,以生成集合統計文件;該集合統計文件包括元數據集合編號、元數據數目、各維屬性平均值、各維屬性范圍,其中元數據集合編號范圍為1,2,3,…,N,N表示位置靈敏哈希函數中哈希表的長度。
步驟(2)具體為,在每臺元數據服務器上構建一個位向量,該位向量的長度與步驟(1)中位置靈敏哈希函數使用的哈希表長度相同,其后,根據所有元數據服務器的位向量兩兩之間的海明距離并利用層次聚類算法在元數據服務器之間進行聚類操作,以得到元數據服務器的分組,當聚類形成的分組數目達到下限,或者分組之間的距離到達了上限,則停止聚類操作,從而得到多個元數據服務器組,并將結果保存在分組配置文件中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310090042.4/2.html,轉載請聲明來源鉆瓜專利網。





