[發明專利]一種基于分布式系統的數據處理優化裝置及方法在審
| 申請號: | 201711382011.0 | 申請日: | 2017-12-20 |
| 公開(公告)號: | CN108182213A | 公開(公告)日: | 2018-06-19 |
| 發明(設計)人: | 黃曉偉;肖萬明;余涵;葉承坤;高建國 | 申請(專利權)人: | 福建新大陸軟件工程有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 350015 福建省福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 緩存 計算集群 內存分片 分布式緩存 分布式系統 緩存代理 計算單元 計算節點 限額管理 優化裝置 數據處理 集群 分布式集群 服務器節點 動態擴展 關聯匹配 海量數據 緩存數據 容量擴展 數據過濾 統一管理 信息存儲 業務要求 在線同步 內嵌 封裝 服務器 分解 管理 監控 融合 | ||
本發明公開一種基于分布式系統的數據處理優化裝置,包括分布式緩存集群、計算集群及本地緩存總控管理,分布式緩存集群進行全量信息存儲并與計算集群分離;計算集群包括兩個及以上計算節點,每一計算節點包括本地緩存、緩存代理及計算單元;所述本地緩存封裝API操作并內嵌有容量擴展與限額管理功能,按業務要求分解成多個內存分片并實現對每個內存分片容量的動態擴展與限額管理,以jar包形式提供給計算單元使用;緩存代理模塊對應服務器上的本地緩存各內存分片的監控工作以及緩存數據的在線同步功能;本地緩存總控管理統一管理各服務器節點的緩存大力。分布式集群緩存與本地緩存的融合,使海量數據的關聯匹配、數據過濾等操作的微秒級處理成為可能。
技術領域
本發明涉及計算機信息技術的大數據數據處理領域,尤其涉及一種基于分布式系統的數據處理優化裝置及方法。
背景技術
隨著互聯網時代的高速發展,人們的生活發生了巨大的變化。人們會利用互聯網進行工作、學習和生活,數據的產生速度及共享速度也成指數增長,從而導致數據量的劇增。但由于數據的來源及類型變得復雜多樣性,數據量非常龐大,與傳統的數據處理方式有很大的區別。
在傳統數據處理方式中,數據存儲、處理及分析的數據量相對較少,可以采用關系型數據庫高效進行數據處理,但在海量數據處理需求,傳統技術已不能滿足現在數據處理的需求,因此業界普遍利用分布式技術(如hadoop、storm、spark等)對海量數據再深度分析挖掘之前進行數據預處理,也稱為數據準備工作。
數據準備工作在處理數據通常有如下一些特點:(1)源數據量大,主要是一些信令(傳感器信令、網元信令等)或者日志(電商訪問記錄、消費記錄等)信息;(2)計算集群數據吞吐量大,通常要求平均每條紀錄預處理時長要達到幾十微秒(每臺服務器每秒50m以上的數據吞吐能力);(3)在流技術處理中,數據處理、數據分析全過程實效性要求高,以便做出實時響應,一般是秒級甚至毫秒級延遲。這些主要應用于對數據實效性敏感的應用領域,比如實時營銷、行情分析、位置跟蹤等;(4)數據類型多、信息不完整,需要進行關聯補全、數據格式標準化等預處理工作。同一個分析主體(用戶、用戶群體等)的數據會時序的產生,關聯的緩存要多次使用;(5)部分應用需要對數據進行過濾,得到滿足分析主體的數據。分析主體的信息有百、千萬級別量級,需要專門的緩存來存儲;(6)緩存數據主要是一些維表與分析主體的信息,這些信息相對穩定,不需要實時更新,其生命周期通常是天或者小時。
以上所述特點勢必在海量數據的數據準備過程中涉及到計算框架與緩存技術的結合以完成信息補全,轉義等工作,通常采用如下幾種方案應對解決:
方案一:計算單元直接加載緩存,如圖1所示。在分布式數據處理的計算框架中,這些計算單元是一個個worker或者container。在批處理時,這些計算單元在處理每個批次的數據時都要重新加載緩存信息,并且計算單元之間這些緩存信息無法共享。在流處理時,雖然只要加載一次緩存信息,但是計算單元之間仍然不能共享緩存。這種方案主要適用于小緩存的場景,否則會造成計算資源與內存資源的浪費。
方案二:分布式緩存與計算框架融合部署,如圖2所示。引入分布式緩存(如Redis、Memcached等),可以解決緩存容量限制的問題。但是分布式緩存框架除了占用一定的內存資源外,還會消耗計算資源,形成與計算框架的資源競爭,嚴重時影響預處理的性能。同時,該方案的部分緩存仍然需要跨節點訪問,也存在方案三中跨節點時性能問題。采用一些商用的分布式緩存(如Coherence),緩存信息自動遷移到計算節點本機上或者臨近的節點上,可以一定程度上緩解跨節點訪問的性能問題,但是資源競爭的問題仍然存在。所以該方案主要適用于處理數據與緩存數據能夠在同一個節點上,也就是說需要對處理數據能進行取?;蛘甙礃I務區隔的場景。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建新大陸軟件工程有限公司,未經福建新大陸軟件工程有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711382011.0/2.html,轉載請聲明來源鉆瓜專利網。





