[發明專利]一種綜合使用多種設備存儲海量數據的方法在審
| 申請號: | 201811264098.6 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN109445704A | 公開(公告)日: | 2019-03-08 |
| 發明(設計)人: | 王帥 | 申請(專利權)人: | 南京錄信軟件技術有限公司 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210000 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 海量數據 數據特點 存儲 存儲設備 提升系統 數據列 | ||
本發明公開了一種綜合使用多種設備存儲海量數據的方法。該方法通過將一張表的多個數據列拆分出來,根據列的數據特點將數據表中的一個或多個列組成一個組,根據每個列簇的數據特點綜合使用多種存儲設備,從而達到性能與成本的最佳性價比,增強系統的靈活性,并顯著提升系統的整體性能。
技術領域
本發明屬于數據存儲技術領域,涉及一種綜合使用多種設備存儲海量數據的方法。
背景技術
隨著大數據的普及,海量數據在千行萬業中得以大規模的應用。海量數據不同于常規的數據,其特點是數據規模非常龐大,在某些行業每天將產生幾十TB甚至幾百TB的數據,而且這些索引數據往往要存儲數月甚至數年,整體的存儲占用將達到PB級的大小。千億數據規模下,數據查詢系統的性能與儲存成本成正比,要達到滿意的查詢性能需要昂貴的存儲設備來存儲海量的數據,反之廉價的存儲設備會降低查詢速度,所以需要一種兼顧性能與成本的分級存儲方法。
目前主流存儲設備性能和價格的分級,行業主流的存儲設備有 內存、SSD固態硬盤、SAS機械硬盤、SATA機械硬盤等設備。
1:讀取速度 讀取速度最快的是內存、SSD固態硬盤次之、再次之SAS機械硬盤、SATA機械硬盤隨機讀寫速度最慢。
2:市場價格 單位存儲成本最貴的是內存、SSD固態硬盤次之、再次之SAS機械硬盤、SATA機械硬盤單位存儲成本最便宜。
3:穩定可靠 內存斷電后會丟數據、SSD固態硬盤盤容易壞,SATA機械硬盤穩定性較好、而SAS機械硬盤存儲最可靠不容易損壞。
數據也是可以進行分級的,我們可以將存儲設備按照性能、成本、可靠性分級,對應存儲相應要求的數據。
1:有些數據需要長久使用需長期保存、有些數據只是臨時數據只需保存最近3~5天即可,不同的數據會有不同的存儲生命周期。
2:有些數據對查詢性能要求很高,必須幾秒內就要查詢出來,而有些數據對查詢性能沒有要求,幾小時后查詢出來也沒什么關系。
3:有些對性能要求較高的數據會隨著時間的推移,數據級別會發生變化。具體體現在最近3~5天的數據,是熱數據必須有較快的查詢性能,而5天后有些數據則會變成冷數據,就會沒有查詢性能的要求。
4:有些數據對可靠性要求非常高,必須多份備份,不能丟失。而有些數據丟了也沒什么,不會引起嚴重的問題。
現有技術方案存在的缺點首先:目前業界采用的方式一定的程度解決了數據分級的問題,但功能很受限。
1.目前的存儲方式,一張數據表,只能存儲在同一種類的存儲設備中,無法分列存儲在多種類存儲設備中,導致不能發揮多種存儲設備各自的優點,也不能規避每種存儲設備各自的缺點。
2.對本地磁盤要求比較高,一旦磁盤損壞,則該表無法使用,服務會受到影響。另外一種情況是如果數據由多備份或副本組成,其中一份副本所對應的磁盤故障,或當前正在進行大IO操作等因素導致這塊磁盤讀的速度很慢,系統不會自動識別切換到另外一塊磁盤上進行讀寫,從而拖累整體的查詢速度。
其次:業界采用的這種方式只能作用到具體某張表上,不能細化到具體的某個數據列上面,這不夠靈活,存儲也不夠精細化。因此對于同一張數據表的不同數據列之間具有如下限制。
1.這些數據列必須是相同的生命周期,保存的天數必須相同。
2.這些數據列必須存儲在同一個存儲設備上,不能根據實際存儲級別將不同的數據列存儲在不同的存儲設備上。
3.這些數據列不會隨著時間的改變,自動自由變換存儲級別,不能在不同的存儲設備之間自動的進行遷移和變換。一但存儲到了某一個設備上,就不能再改變了。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京錄信軟件技術有限公司,未經南京錄信軟件技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811264098.6/2.html,轉載請聲明來源鉆瓜專利網。





