[發明專利]數據存儲計算方法和系統有效
| 申請號: | 201310706148.2 | 申請日: | 2013-12-19 |
| 公開(公告)號: | CN104731796A | 公開(公告)日: | 2015-06-24 |
| 發明(設計)人: | 佘偉;費浩峻;馮是聰;吳明輝 | 申請(專利權)人: | 北京思博途信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 王丹;栗若木 |
| 地址: | 102218 北京市昌*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 存儲 計算方法 系統 | ||
技術領域
本發明涉及信息處理領域,尤其涉及一種數據存儲計算方法和系統。
背景技術
在網絡信息服務產業領域,數據已成為各大網絡機構的產品發展中不可或缺的元素。各大互聯網公司都基于通過各種途徑收集到的海量數據的分析結果上,更新自身的服務模式,營銷策略及產品規格,所以,大數據的處理及分析已經成為企業發展中亟待解決的問題。為了有效應對大數據帶來的挑戰,同時充分利用大數據帶來的機遇,國內外的產業界與科技界、甚至各國政府部門都在積極布局、制定戰略規劃,研究高效率以及高準確率的數據處理技術方案。
目前現有的處理海量數據的方法一般都是基于已有的r-tree算法進行多維的數據組織,再將海量數據存入分布式文件系統,利用分布式集群來進行數據的分析和運算。
但是現有的r-tree算法對數據進行組織時,不能將葉節點的文件大小控制在一定范圍之內,導致葉節點在分布式系統中分布極不均勻,一個葉節點可能橫跨幾個block(分布式文件系統的最小存儲單位),造成集群中單臺服務器計算資源的浪費。
發明內容
本發明提供了一種數據存儲計算方法和系統,解決了資源浪費的問題。
一種數據存儲計算方法,包括:
對海量數據進行日志收集并預處理;
對預處理后的日志進行多維度日志分類;
根據分布式系統Block的大小,將分類后的日志數據打包,所述Block為分布式文件系統的最小存儲單位;
在所述Block上存儲數據,建立數據空間索引;
利用所述數據空間索引,維護分布式集群計算資源的負載均衡。
優選的,所述對海量數據進行日志收集并預處理包括:
對存儲在服務器中的海量數據進行日志收集,所述海量數據指的是用戶的網絡行為數據;
分析日志格式,獲取日志中的維度;
從所述日志中的維度中選取多個維度建立空間坐標,其中,每一個維度代表一種數據類型。
優選的,從所述日志中的維度中選取多個維度建立空間坐標包括:
接收用戶指令,所述用戶指令中攜帶有多個維度的標識;
根據所述維度的標識,從所述日志中的維度中選擇相應的維度建立空間坐標。
優選的,對預處理后的日志進行多維度日志分類包括:
根據所述空間坐標的范圍和各維度劃分塊的數目,采用均值劃分法確定各個維度上的劃分范圍,逐條分析日志;
將每條日志寫入對應的空間坐標的范圍中,并生成新的日志文件;
將新生成的文件進行壓縮,并記錄每個文件對應的空間范圍以及壓縮后的文件大小。
優選的,根據分布式系統Block的大小,將分類后的日志數據打包包括:
將壓縮后的文件的元信息依次寫入內存中;
根據每個文件所對應的空間范圍,將文件的元信息映射到空間坐標系中;
根據文件的空間信息,建立r-tree數據結構,所述r-tree的每個葉子節點的數據將作為一個數據包,每個數據包里包含多個文件,同時保證葉子節點存放的整體文件大小大于1/2block的值,同時小于1block值。
優選的,在所述Block上存儲數據,建立數據空間索引包括:
調用分布式文件系統的文件讀寫函數,將所述r-tree的每個葉子節點里的文件寫入分布式系統的一個文件中,并記錄文件的空間范圍;
通過與分布式系統的文件管理器進行交互,獲得每個文件所對應的block的id和相應復本的block的id,得到每個block對應的文件空間范圍;
將文件的空間范圍映射到空間坐標系中,對文件建立空間索引,通過文件與新產生的所有的block進行關聯,以建立基于block的空間索引,在內存中維持一個動態的索引數據。
優選的,所述對所述block進行分布式數據包存儲,建立數據空間索引的步驟之后,還包括:
建立新的計算模式,實現計算時集群的負載均衡。
優選的,利用所述數據空間索引,維護分布式集群計算資源的負載均衡包括:
用戶向分布式系統提交運行程序請求,所述請求中包括需求數據的維度空間范圍;
分布式系統通過系統中的空間索引系統獲取需要執行的空間區域所對應的所有block原文件及block復本文件;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京思博途信息技術有限公司;,未經北京思博途信息技術有限公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310706148.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:內存數據庫管理裝置
- 下一篇:一種上下位機通訊監控系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





