[發明專利]超大維表的切分與表連接方法無效
| 申請號: | 201010142719.0 | 申請日: | 2010-04-02 |
| 公開(公告)號: | CN102214176A | 公開(公告)日: | 2011-10-12 |
| 發明(設計)人: | 甘亮;李愛平;賈焰;韓偉紅;劉健;金鑫 | 申請(專利權)人: | 中國人民解放軍國防科學技術大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 410073 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 超大 切分 連接 方法 | ||
技術領域
本發明涉及數據庫領域及數據分析領域,特別涉及一種超大維表的切分與表連接方法。
背景技術
數據處理是計算機研究領域的一個重要方向。根據數據的存在形態,數據處理分為對靜態數據的處理和對動態數據(即數據流)的處理。靜態數據處理以數據為中心,整個數據集存儲在一個龐大的、相對穩定的中央存儲介質中,并隨時準備接受隨機到來的用戶數據請求(即“查詢”)。在數據集的生命周期內,絕大部分數據是穩定不變的,而頻繁變化的是用戶隨時可能提交的查詢。數據庫管理系統、信息檢索系統、數據倉庫系統等多種應用中都采用了靜態數據處理的處理方式。但在某些應用中,如互聯網管理系統、證券交易系統、電信系統、金融交易系統,數據本身具有高度流動性,而用戶查詢則相對穩定,這就使得這些應用的數據處理不再是對靜態數據的處理,而是對動態數據的處理。在對動態數據進行處理時,由于所要處理的對象是在線的、持續的高速數據流,且因為存儲空間的限制,所接收到的數據不可能完全保存到存儲器中,同時又必須不間斷、無延遲地處理這些數據流,以獲得實時處理結果,因此,對靜態數據的處理方式并不適合在動態數據處理過程中使用,動態數據處理需要采用新的數據結構與計算方法。
傳統的關系型數據庫系統主要面向基本的、日常的事務處理,如銀行的交易事務,因此也被稱為聯機事務處理系統(On-Line?TransactionProcessing,簡稱OLTP),但對于如何利用已有的海量數據提取對企業決策分析有用的信息(即分析處理)的支持一直不能令人滿意,因此,由關系數據庫之父E.F.Codd于1993年提出了OLAP(聯機分析處理,On-LineAnalytical?Processing),OLAP是使分析人員、管理人員或執行人員能夠從多種角度對從原始數據中轉化出來的、能夠真正為用戶所理解的、并真實反映企業維特性的信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟件技術。OLAP的目標是滿足決策支持或者滿足在多維環境下特定的查詢和報表需求,它的技術核心是“維”這一概念,因此OLAP也可以說是多維數據分析工具的集合。與傳統的關系型數據庫中所采用的聯機事務處理OLTP相比,OLAP主要應用在數據倉庫系統中,它能夠支持復雜的分析操作,側重決策支持,并且提供直觀易懂的查詢結果。
對數據流的處理與OLAP原本是兩個相互獨立的概念,但在實時數據多維分析領域中,如實時網絡安全監控數據分析、實時銀行交易記錄分析,兩者得到了緊密的結合。由于數據流本身具有快速變化、海量和潛在無限的特點,而在聯機分析處理時又需要對數據做大量的操作,影響了數據流處理的實時性,因此,在現有技術中,本領域技術人員提出了采用數據流立方體(StreamCube)來提高查詢速度,以克服數據流海量與實時性之間的矛盾。所述的數據流立方體是指對數據流數據建立的數據立方體(Cube),它由多個預定義的數據流聚集查詢結果組成,而其中的數據立方體則是一種能快速分析數據的數據結構,它允許從多維對數據加以建模和觀察。
在現有技術中,對數據流立方體的構建主要包括以下步驟:將所接收到的數據流與維表進行表連接;對表連接后的結果做聚集查詢;存儲聚集查詢后的結果。在構建數據流立方體時之所以要將數據流與維表做表連接是因為數據流數據是單層次、單粒度的,通過數據流元組與維表連接可獲取多層次、多粒度的詳細屬性信息。由于數據流表連接是構建數據流立方體的必要步驟,因此,提高數據流表連接效率將有助于提高數據流立方體的生成效率。
現有技術中存在多種數據流表連接方法,如哈希連接(Hash?join)、嵌套循環連接(Nested-Loop?Join)和排序合并連接(Sort-Merge?join)。這些現有方法有各自的應用范圍,但也存在各自的缺陷。如哈希連接方法在數據流系統的表連接中,駐入內存的表為維表,當維表大于內存限制時,需要反復地讀取磁盤中維表的剩余數據,I/O開銷過大。當數據流速率達到一定程度時,可能會使數據流中的數據未能及時連接處理而被丟棄,導致最終結果不正確,或只能得到近似的結果。維表的規模越大,這一問題越發突出。
發明內容
本發明的目的是克服現有的數據流表連接方法I/O開銷大,實時性較差的缺點,從而提供一種超大維表連接方法。
為了實現上述目的,本發明提供了一種超大維表的切分方法,包括:
步驟1)、從所述超大維表的各個表項中提取一層次的維的一個屬性值以及與該屬性值所對應的連接鍵的值域范圍;
步驟2)、將所述層次的維中的所有屬性值以及與各個屬性值相對應的連接鍵的值域范圍保存在一子表中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科學技術大學,未經中國人民解放軍國防科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010142719.0/2.html,轉載請聲明來源鉆瓜專利網。





