[發明專利]一種海量非結構化數據的數據存儲方法有效
| 申請號: | 201510088785.7 | 申請日: | 2015-02-26 |
| 公開(公告)號: | CN104731864B | 公開(公告)日: | 2018-05-29 |
| 發明(設計)人: | 王琦;劉陽;楊鵬;陳訓遜;王樹鵬;王勇;王振宇 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心;中國科學院信息工程研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 司立彬 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 散列 數據存儲 記錄 非結構化數據 存儲 關鍵信息 分區 記錄數 數據檢索效率 非結構化 記錄存儲 唯一表示 集群 寫入 創建 統計 | ||
本發明公開了一種海量非結構化數據的數據存儲方法。本方法為:1)設定一時間間隔T,將數據存儲集群劃分為多個分區,用于將同一時間間隔T內的記錄存儲到同一分區內;同時將每一分區劃分為n個散列區;2)對于每條非結構化記錄,提取其產生的時間t以及一個或多個唯一表示該記錄的關鍵信息key;3)根據每條記錄的時間t,確定其要存儲到的分區,然后根據該記錄的關鍵信息key計算其在該分區中對應的散列區值;4)根據步驟3)的計算結果,將屬于同一時間間隔且散列區值相同的記錄寫入同一文件F中并統計該文件F的記錄數,如果記錄數大于設定閾值K,則在當前散列區中創建另一文件進行存儲。本發明存儲方法能夠大大提升了數據檢索效率。
技術領域
該發明涉及一種海量非結構化數據的數據存儲方法,特別涉及一種在分布式存儲場景下,支持按照時間間隔(Interval)和散列(Hash)兩級劃分規則策略進行非結構化數據組織的、按照數據量進行動態調整的海量數據管理模型和方法,并支持在該數據組織基礎上進行數據索引創建,以實現更高效的檢索速率。屬于海量數據存儲管理研究領域。
背景技術
計算機應用的不斷發展導致了數據量的急劇增加,由于數據結構化過程受限于人工處理速度,導致了非結構化數據的增長速度遠遠大于結構化數據。對于目前不斷增加以致達到TB、PB級的大規模數據,需要更好的工具或技術來對文件進行組織和管理,高效的數據組織方法能夠幫助人們在需要時迅速地從后臺大規模數據中獲取自己想要的數據。
文件系統作為本地存儲系統的數據組織管理者,它在不同操作系統平臺下有不同的組織結構和操作形式。基于多種主機文件系統和分布式文件系統的研究成果,適用于大規模數據組織的文件系統,例如Cluster File System的Lustre,Google的GFS,以及基于語義的文件系統等在海量數據組織上都提供了良好的性能。
Cluster File System公司Lustre是面向下一代存儲的分布式文件系統。Lustre對于文件管理采取的是數據與元數據分離,元數據集中管理的機制。它采取單一的元數據服務器來對元數據進行存儲和管理。這種分離機制可以更好的利用各自存儲設備和傳輸網絡的特性,提高系統的性能,有效降低系統的成本。
由于很多的小文件在實際存儲的時候都是通過匯聚的方式形成一個較大的文件存儲在磁盤上的,這樣做可以避免很多小文件導致的元數據規模變大的問題,也可以有效降低磁盤尋址的時間消耗,并且可以使用緩存技術進行數據預存儲,但是,上述場景的技術實現難度主要是數據(數據:單個小文件)來源、數據大小、數據在某個時間段內的總量均不可預期,無法使用一個固定模式設定數據存儲規則,即無法保證數據匯集的這個大文件能有效控制在一定范圍,因為如果匯聚的文件過大會導致加載困難,太小又沒什么用。
發明內容
針對現有技術中存在的技術問題,本發明提出了一種按照時間間隔(Interval)和散列(Hash)兩級劃分的方式進行非結構化數據存儲組織的數據模型,支持先按照不同時間粒度進行數據分區,再對不同時間粒度下的數據分成不同的散列區進行存儲,實現非結構化數據的有效組織,并在此基礎上支持數據索引的創建,提升了數據檢索效率,解決了數據按照熱點訪問的提取難題,同時支持靈活調整時間粒度和散列區的大小,針對不同的業務場景進行自由變更,結合分布式環境下多節點、每個節點多盤位的現狀,減少數據合并和遷移的場景,有效提升了數據訪問的并發度和讀取效率,進一步降低了系統擴容的復雜度。
本發明是通過時間間隔進行數據匯總,因此就可以記錄一個時間指標,因為數據訪問有一個特點,即最近的數據會被經常訪問,時間越久,數據訪問的頻率會越低,所以本發明設定一個熱點時間范圍,比如最近7天為最熱,再往前7天次之,依次類推,然后按照熱度緩存數據,比如最近7天的數據全部緩存,再往前7天的數據只緩存索引,該緩存策略可以根據業務場景進行動態調整,提示數據檢索效率。
本發明所采用的技術方案如下:
一種海量非結構化數據的數據存儲方法,其步驟為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心;中國科學院信息工程研究所,未經國家計算機網絡與信息安全管理中心;中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510088785.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:攔截廣告的方法及裝置
- 下一篇:數據處理方法及裝置





