[發明專利]一種數據存儲的方法及裝置在審
| 申請號: | 201410135689.9 | 申請日: | 2014-04-04 |
| 公開(公告)號: | CN104978330A | 公開(公告)日: | 2015-10-14 |
| 發明(設計)人: | 伍勝;劉冬林;任應超;王剛;喬麗 | 申請(專利權)人: | 西南大學;中國科學院遙感與數字地球研究所;北京中遙地網信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中譽威圣知識產權代理有限公司 11279 | 代理人: | 郭振興;叢芳 |
| 地址: | 400715*** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 存儲 方法 裝置 | ||
技術領域
本發明涉及計算機技術領域,具體地,涉及一種數據存儲的方法及裝置。
背景技術
針對海量數據文件的網絡發布,傳統的技術方案主要有如下幾類:
一、把海量的數據文件直接存放在磁盤上,并把整個數據目錄發布到Web服務器中。這種方案最為簡單和直接,數據發布后,不需要安裝部署其它額外的前端應用系統,通過URL可以直接訪問指定路徑下的文件。但該方法存在如下幾個問題:
1、當磁盤目錄中的文件數量巨大時,Web服務器的服務效率低下。實驗環境下,1T左右的圖片文件(每個圖片文件20~200k范圍內),IIS需要花費10~15分鐘才能啟動完畢。另外,當一個目錄下的文件數量達到數千個數量級時,數據訪問速度明顯降低。
2、把海量的數據文件直接存儲在磁盤目錄下,當遭遇到數據的復制、遷移、刪除等管理操作時,速度十分緩慢,給大數據的管理帶來麻煩。
3、因為文件系統在磁盤上劃分了最小的基本數據存儲區域。當一個基本區域未使用完時,是不能提供給其它文件存儲的。所以,如果直接在磁盤上存儲海量的小數據文件,將浪費大量的磁盤存儲空間。
4、在數據訪問階段,當遭遇大量并發訪問時,服務器需要頻繁讀取磁盤上的小數據文件,將造成系統文件打開數目和磁盤I/O的開銷大大增加。
二、把海量的數據文件存儲到數據庫中,再通過部署的應用系統作為數據庫與Web服務的中間層。通過應用系統連接數據庫獲取數據,然后傳遞給Web服務器返回給客戶端。但是數據庫主要是針對文本和數值型數據的管理、查詢和計算,而海量數據文件處理所面對多是二進制為主的數據文件,即便是文本文件,也都當成二進制數據流來讀取,不用理解數據文件的內容。所以數據庫的查詢、計算功能在海量數據文件處理方面并不能發揮作用。
以及在數據獲取方面,需要通過網絡連接的方式連接到數據庫系統,再通過SQL語句進行查詢和檢索,最后返回數據。這樣的數據訪問過程將消耗大量的系統資源和時間,比通過文件系統直接讀取數據效率要低很多。而且需要使用者具備數據庫的安裝、配置、使用和開發方面的知識背景,不夠便捷。
三、把海量的數據文件存儲到分布式系統中。例如,把數據存儲到類似Hadoop、Riak等類似的云存儲環境中。這種技術路線絕大部分情況下也需要部署其它中間層來負責數據的定位和獲取,再轉給前端服務器返回給客戶端。而且分布式系統存儲系統主要目的是提供一種具備高可擴展性、高容錯性的數據存儲方案,其次才是考慮訪問速度問題。分布式系統一般由計算機集群組成;在該集群內數據、元數據信息和數據索引一般都分布在多個服務器上。基于這種分布式結構,數據獲取時通常需要通過網絡訪問多個機器才能最終定位所需數據。因此效率不如單機的訪問效率高,或必須當集群達到一定規模的時候才能顯示其效率優勢。
以及分布式系統通常比較復雜,需要使用者具備分布式系統的安裝、配置、使用和開發方面的背景知識,使用門檻較高,不夠方便快捷。
綜上,現有技術中第一種把海量的數據文件直接存放在磁盤上的方式存在數據處理效率低下、數據難以管理、存儲空間浪費嚴重等技術缺陷;第二種把海量的數據文件存儲到數據庫中的方式存在讀取數據效率低等技術缺陷;第三種把海量的數據文件存儲到分布式系統中的方式存在系統比較復雜、不夠方便快捷等技術缺陷。
發明內容
本發明是為了克服現有技術中在海量數據存儲及提取時存在數據處理效率低下等技術缺陷,根據本發明的一個方面,提出一種數據存儲的方法。
根據本發明實施例的數據存儲的方法,包括:將待存儲的小數據文件打包生成存檔大數據文件;在非解包狀態下,讀取所述存檔大數據文件中的每個小數據文件;為所述存檔大數據文件創建索引庫,通過查詢所述索引庫調用所述小數據文件。
本方案進一步的,所述為存檔大數據文件創建索引庫的步驟包括:記錄每個所述小數據文件在所述存檔大數據文件中存儲的文件識別信息、存儲偏移量和數據長度;對所述文件識別信息進行編碼生成所述小數據文件對應的鍵,將所述存儲偏移量和數據長度作為所述小數據文件對應的值并與所述小數據文件對應的鍵組成所述小數據文件對應的鍵值對;將所述鍵值對寫入所述索引庫中。
本方案進一步的,還包括:將所述索引庫合并成集群索引庫,通過查詢所述集群索引庫調用所述小數據文件;所述將索引庫合并成集群索引庫的步驟包括:指定集群索引庫中包含的索引庫;讀取為所述存檔大數據文件創建的索引庫中的鍵值對進行重新構建,形成新的鍵值對;將所述新的鍵值對寫入所述已指定的索引庫,合并成所述集群索引庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南大學;中國科學院遙感與數字地球研究所;北京中遙地網信息技術有限公司,未經西南大學;中國科學院遙感與數字地球研究所;北京中遙地網信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410135689.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于熱釋電紅外傳感器的智能照明燈
- 下一篇:一種散熱效果較好的LED日光燈管
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





