[發明專利]一種基于云計算的自適應存儲分層系統及方法在審
| 申請號: | 202011483292.0 | 申請日: | 2020-12-15 |
| 公開(公告)號: | CN112559459A | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 占紹雄;李揚;韓卿 | 申請(專利權)人: | 跬云(上海)信息科技有限公司 |
| 主分類號: | G06F16/172 | 分類號: | G06F16/172;G06F16/182;G06F16/18;G06F16/14 |
| 代理公司: | 北京知果之信知識產權代理有限公司 11541 | 代理人: | 卜榮麗 |
| 地址: | 200120 上海市浦東新區中國(*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 計算 自適應 存儲 分層 系統 方法 | ||
本發明提供一種基于云計算的自適應存儲分層系統及方法,包括數據節點管理模塊、元數據管理模塊、自適應存儲分層模塊以及預聚合查詢路由模塊,根據預定義規則對節點容量進行擴展和收縮、對收集的查詢命中的模型以及掃描文件路徑進行聚合和排序、對文件進行分層加載和預加載?;诒景l明,可以構建出一個高效的OLAP查詢執行引擎,應對各類報表系統的復雜OLAP查詢,可以顯著提高云上OLAP引擎的執行效率。
技術領域
本發明涉及數據分析技術領域,尤其涉及一種基于云計算的自適應存儲分層系統及方法。
背景技術
在云計算環境下,大數據架構體系往往是基于存儲與計算分離的架構。將存儲與計算分離的好處是可以大大提升用戶在云上進行大數據處理的性價比,當一個ETL工作流完成后,數據已經完整保存在云存儲上,這時候用戶可以直接將不用的機器停止或者刪除,釋放計算資源,減少云成本。同樣,存儲與計算分離的情況下,可以根據需求對計算資源進行水平擴展或者動態減少而不會影響到存儲,在大數據使用并發量較大時,對集群進行水平擴展來應對高并發請求,同時并發下降后動態減少計算節點來降低使用成本。然而這種架構下也存在缺陷,在計算存儲分離情況下,往往計算與存儲之間通過網絡傳輸,傳輸的速率依賴帶寬,盡管云基礎設施供應商都在不斷地提升網絡硬件設施,但是相對于本地存儲,云環境下存儲與計算之間因為帶寬傳輸速率受限,通常會成為數據分析的瓶頸。為了加速云存儲的訪問,我們一方面可以權衡成本盡可能選擇較高帶寬的機器來緩解網絡傳輸帶來的性能損耗;另一方面,可以將熱數據盡量緩存在計算集群中,以達到對熱數據查詢的快速響應。
當前,在云計算環境下能夠支持多云的分布式文件緩存系統主要有Alluxio。該分布式文件緩存系統優點是支持多級存儲,同時支持多種公有云,但是其缺點也比較明顯。在需要緩存的文件很多時只能進行根據訪問情況進行緩存文件置換,且替換算法比較簡單,不適宜預計算的場景;不支持彈性伸縮,當我們有更多文件需要緩存時,往往無法自動擴展;另外,在云上基于成本考慮,集群往往會在閑置時停止,在需要時啟動,這時候在使用OLAP引擎進行初次查詢時,往往會因為無法對模型索引文件動態預熱會導致初始一段時間的文件掃描速度很慢。以上是以Alluxio為分布式文件緩存方案所欠缺的。
由于當前OLAP引擎與Alluxio集成方案存在的缺陷,難以支持高并發下的亞秒級查詢響應。因此,本發明構思出一種基于云計算的自適應存儲分層方案,可以顯著提高云上OLAP引擎的執行效率。
發明內容
有鑒于此,本公開提供一種基于云計算的自適應存儲分層系統及方法,技術方案如下:
一方面,本發明提供了一種基于云計算的自適應存儲分層系統,包括數據節點管理模塊、元數據管理模塊、自適應存儲分層模塊以及預聚合查詢路由模塊,數據節點管理模塊用于收集存儲集群運行情況,按照預定義的規則進行水平擴展和收縮,元數據管理模塊用于收集OLAP查詢引擎的查詢命中的模型以及掃描的文件路徑,并對這些數據進行聚合和排序,自適應存儲分層模塊根據元數據管理模塊維護的模型命中次數以及文件掃描次數的排行列表來對文件進行分層加載以及預加載,預聚合查詢路由模塊根據模型以及索引在元數據庫中的緩存情況自動切換查詢存儲地址。
進一步地,所述的數據節點管理模塊收集的存儲集群運行情況數據包括:存儲集群各節點的容量、存儲集群各節點已使用容量、存儲集群各節點緩存文件及其大小。
進一步地,所述數據節點管理模塊的集群包括存儲集群和計算集群,存儲集群主要用于存儲數據,計算集群主要用于提供計算功能,存儲集群和計算集群均具備緩存功能。
進一步地,所述的存儲集群包括:內存層MEN、固態硬盤層SSD、硬盤層HDD存儲。
進一步地,所述的數據節點管理模塊的擴展和收縮的規則是:當存儲集群內緩存容量小于實際計算集群所需容量的20%時,對存儲集群進行水平擴展;當存儲集群內數據過期或不再使用時,優化數據節點配置,對存儲集群進行收縮。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于跬云(上海)信息科技有限公司,未經跬云(上海)信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011483292.0/2.html,轉載請聲明來源鉆瓜專利網。





