[發明專利]支持海量數據分組統計的智能索引構建、查詢及維護方法有效
| 申請號: | 201511001092.6 | 申請日: | 2015-12-28 |
| 公開(公告)號: | CN105631003B | 公開(公告)日: | 2019-02-22 |
| 發明(設計)人: | 李斌斌;周游 | 申請(專利權)人: | 北京賽思信安技術股份有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/245 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 祗志潔 |
| 地址: | 100125 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 支持 海量 數據 分組 統計 智能 索引 構建 查詢 維護 方法 | ||
本發明提供了一種支持海量數據分組統計的智能索引構建、查詢及維護方法,屬于大數據處理技術領域。本方法建立了智能索引的數據組織結構,以使智能索引支持海量數據分組統計;智能索引的數據組織結構包括索引元數據和索引數據,索引元數據是創建索引的依據,包括分組列簇和統計列簇,索引數據是對原始數據構建的索引。本方法在寫入數據時在內存中實時創建智能索引,利用智能索引進行分組統計的操作,也可快捷對智能索引進行刪除。本發明實現了對海量數據的實時自動創建索引,在對海量數據進行分組統計時極大降低了磁盤I/O和計算時間,從而大幅提高了分組統計效率,并實現了對索引數據全生命周期的自動管理。
技術領域
本發明涉及一種支持海量數據分組統計的智能索引構建、查詢及維護方法,屬于大數據處理技術領域。
背景技術
隨著計算機技術的不斷發展和信息化程度的不斷提高,數據量迅速增長,面向海量數據存儲及應用也隨之蓬勃發展,大數據應用越來越廣泛。如,在網絡安全上,使用大數據技術分析網絡攻擊行為;在電子商務上,使用大數據技術分析用戶購物喜好或最受青睞的商品;在城市建設上,利用大數據技術構建智慧城市,方便人民出行。諸如此類,大數據技術在建設節約型社會,提高生成效率等方面起到了積極的推動作用。
但隨著數據量的持續增大和大數據應用的不斷發展,對大數據處理能力的要求越來越高。在海量數據分析應用中,對數據分組統計是常用的應用模式,其處理效率直接影響了業務應用。目前常用的分組統計方法主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總。這些方法的主要特點是對涉及到的數據全盤掃描,其對系統資源,特別是I/O會有極大的占用,從而對整個存儲系統帶來巨大壓力,其統計效率難以應對業務需求。因此,通過構建索引,降低磁盤I/O開銷,成為提高分組統計效率需要解決的關鍵問題。
發明內容
為提高分組統計效率,降低磁盤I/O開銷,本發明提供了一種支持分組統計的智能索引構建、查詢和維護方法。
本發明提供的支持海量數據分組統計的智能索引構建、查詢和維護方法,通過如下四方面實現:
第一方面,建立智能索引的數據組織結構,以使智能索引支持海量數據分組統計。
智能索引的數據組織結構包括索引元數據和索引數據。索引元數據是創建索引的依據,包括分組列簇和統計列簇。分組列簇采用二維表存儲,存儲信息包括分組字段名稱、分組字段類型和分組方式;分組字段類型包括整型、字符型和時間類型,分組方式包括區間、等值和哈希三種方式。統計列簇采用二維表存儲,存儲信息包括統計字段名稱、統計字段類型和統計方式;統計字段類型包括整型、字符型和時間類型,統計方式包括聚合、平均值、最大值、最小值、方差和求和。索引數據是對原始數據構建的索引,一個原始數據塊對應一個索引數據塊,每個索引數據塊包括分組數值區和統計數值區兩部分。分組數值區由多個字典組成,一個字典對應一個分組字段,每個字典包括分組字段值及其應用的位置ID,分組字段值和位置ID均使用有序鏈表存儲;統計數值區根據位置ID分段按行存儲,每個段按ID排序,使用有序鏈表存儲。
第二方面,在寫入數據時在內存中實時創建智能索引。
首先根據索引元數據確定分組字段和統計字段,然后對每條原始記錄在內存中計算,包括對分組字段按分組方式計算和對統計字段按統計方式計算,更新維護好分組數值區鏈表和統計數值區鏈表,最終將索引數據持久化到磁盤。
第三方面,利用智能索引進行分組統計的操作。
首先通過判定器判讀本次統計是否可以使用智能索引,當能使用時,通過執行器讀取索引數據,最后通過匯聚器對分組值進行匯聚計算。
第四方面,實現對智能索引的刪除操作。
預設原始數據與索引數據物理存儲規則,根據待刪除的原始數據塊存儲路徑,來構造索引數據存儲路徑,將建立的索引數據刪除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京賽思信安技術股份有限公司,未經北京賽思信安技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201511001092.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:離線坐標校準和地圖創建的方法及裝置
- 下一篇:一種信息處理方法和服務器
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





