[發(fā)明專利]一種基于數據值分類的差異化鍵值數據存儲方法有效
| 申請?zhí)枺?/td> | 202010182605.2 | 申請日: | 2020-03-16 |
| 公開(公告)號: | CN111399777B | 公開(公告)日: | 2023-05-16 |
| 發(fā)明(設計)人: | 吳加禹;崔秋;唐劉;吳毅 | 申請(專利權)人: | 平凱星辰(北京)科技有限公司 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06;G06F12/02;G06F16/906;G06F16/901 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧 |
| 地址: | 100080 北京市海淀區(qū)西小口路*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 分類 異化 鍵值 存儲 方法 | ||
本發(fā)明公開了一種基于數據值分類的差異化鍵值數據存儲方法,特征是包括鍵值數據的分類存儲、有序文件的分層管理、優(yōu)化底層數據值的局部有序性、差異化的磁盤空間回收策略步驟,通過對不同大小的數據值進行分類并采用鍵值分離結構以不同的有序性存儲,使得該系統在充分降低數據合并帶來的開銷的同時,支持對數據進行高效的點查詢以及范圍查詢;通過有序文件的分層管理以及局部有序性優(yōu)化,實現了以盡可能小的開銷保障系統中絕大多數有序文件在范圍查詢時可以順序讀取;利用差異化的磁盤空間回收策略能快速識別并回收系統中無效數據最密集的文件,并規(guī)避了中小數據值在空間回收過程中對數據索引的頻繁讀寫,從而可以高效回收和利用存儲空間。因此,采用本發(fā)明方法所設計的鍵值存儲系統可以在讀、寫及空間開銷等性能指標上均表現優(yōu)異。
技術領域
本發(fā)明屬于計算機存儲系統技術領域,具體涉及在鍵值存儲系統(KV?Stores)中,將鍵值(Key-Value)數據進行分類并采用差異化的存儲方法,實現高性能、低空間開銷的鍵值存取方法。
背景技術
據谷歌(Google)、臉書(Facebook)等公司的介紹,為了適應新型網絡應用和服務中海量非結構化與半結構化數據的存儲需求,基于鍵值(Key-Value)模型的存儲系統近年來被廣泛使用,包括谷歌的LevelDB、臉書的RocksDB、淘寶的Tair等均采用了鍵值存儲模型。這些主流的鍵值存儲系統都采用日志結構合并樹(LSM-Tree)作為其核心存儲結構,這種結構將鍵值數據在磁盤上組織成多層,通過層間壓縮(Compaction)操作來保證數據在各層內的絕對有序。但是頻繁的Compaction操作會導致嚴重的寫放大(WriteAmplification)問題,為了解決該問題,目前存在兩種主流技術研究方向:一是放松LSM-Tree中存儲鍵值對(KV?Pair)的層內有序性要求,每次Compaction操作僅合并同一層中的數據追加到下一層,允許層內數據范圍重疊,如德克薩斯大學奧斯汀分校的PebblesDB;二是采用鍵值分離的存儲結構,僅維護有序的鍵(Key)作為索引,將數據值(Value)按寫入順序存儲在分離的日志文件中,如威斯康星大學的WiscKey。這些研究采取的方法雖然降低了系統的寫入開銷,但均在不同程度上影響了讀性能,包括點查詢及范圍查詢,并且顯著增加了磁盤空間開銷。隨著網絡中數據規(guī)模的急劇增長,為了適應新型網絡應用的性能需要以及降低存儲成本,需要鍵值存儲系統同時具備高讀寫性能,以及較低的空間開銷。
發(fā)明內容
本發(fā)明的目的是為鍵值存儲系統提供一種基于數據值分類的差異化鍵值數據存儲方法,以盡可能低的維護開銷保障數據的讀取性能,并實現高效的空間回收,克服現有技術不能同時保障高讀寫性能以及低空間開銷的缺陷。
本發(fā)明基于數據值分類的差異化鍵值數據存儲方法,其特征在于包括以下步驟:
第一步:鍵值數據的分類存儲
采用數據值(Value)的分類方法,將鍵值數據按數據值大小分成大、中、小三類,并以鍵值分離的存儲結構將數據值分別存儲在磁盤上的無序數據區(qū)、有序數據區(qū)以及索引區(qū)三個不同區(qū)域:
所述無序數據區(qū),由一系列無序文件組成,存儲大數據值,數據值在文件內按寫入順序存儲;
所述有序數據區(qū),由一系列有序文件組成,存儲中數據值,數據值在文件內部按照鍵(Key)的字典序排列,不同有序文件之間可以存在范圍重疊;
所述索引區(qū),結構為日志結構合并樹(LSM-Tree),保存小鍵值對本身,以及大、中數據值在數據區(qū)中的位置;
所述數據值的分類方法為:以近似數據值的位置索引大小作為小鍵值對的最大數據值大小SmallThreshold,并根據存儲介質的并發(fā)隨機讀取性能設置大鍵值對的最小數據值大小LargeThreshold,滿足當數據值大于LargeThreshold時并發(fā)隨機讀取性能接近順序讀取;數據值文件的大小限制為MaxFileSize,其值應小于LSM-Tree中數據文件的大小;鍵值對在寫入時遵循以下流程:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平凱星辰(北京)科技有限公司,未經平凱星辰(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010182605.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發(fā)送方法、數據發(fā)送系統、數據發(fā)送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發(fā)送和數據接收設備、數據發(fā)送和數據接收方法
- 數據發(fā)送裝置、數據接收裝置、數據收發(fā)系統、數據發(fā)送方法、數據接收方法和數據收發(fā)方法
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置





