[發(fā)明專利]一種基于Hadoop的海量非獨(dú)立小文件關(guān)聯(lián)存儲方法無效

申請?zhí)枺?/td>	201110312671.8	申請日：	2011-10-15
公開（公告）號：	CN102332027A	公開（公告）日：	2012-01-25
發(fā)明（設(shè)計）人：	鄭慶華;董博;劉均;馬瑞;宋凱磊	申請（專利權(quán)）人：	西安交通大學(xué)
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	西安通大專利代理有限責(zé)任公司 61200	代理人：	朱海臨
地址：	710049 ***	國省代碼：	陜西;61
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于 hadoop 海量獨(dú)立文件關(guān)聯(lián) 存儲方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

本發(fā)明涉及海量非獨(dú)立小文件在Hadoop(分布式文件系統(tǒng))上的存儲及讀取優(yōu)化方。Hadoop是當(dāng)前主流的云存儲平臺，它由一個NameNode和多個DataNode組成，其中NameNode負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶端的訪問，DataNode負(fù)責(zé)存儲數(shù)據(jù)，本發(fā)明主要解決現(xiàn)有大規(guī)模非獨(dú)立小文件存儲及讀取效率較低的問題。

背景技術(shù)

隨著互聯(lián)網(wǎng)的發(fā)展，需要存儲的數(shù)據(jù)量日益龐大；而文件大小差異很大，從數(shù)千字節(jié)的小文件到數(shù)百兆字節(jié)的大文件。Hadoop分布式文件系統(tǒng)適合存儲大文件，在存儲小文件時其存儲性能和讀取性能嚴(yán)重下降。因此，如何有效地存儲和管理大量的小文件，成為亟待解決的難題。針對如何有效地在分布式文件系統(tǒng)上存儲海量的小文件、降低其讀取延遲，申請人通過查新，得到3篇與本發(fā)明相關(guān)密切的專利，它們分別是：

1.一種集群存儲中并行訪問大量小文件的方法及系統(tǒng)(專利號：CN201010178387.1)。

2.一種機(jī)群文件系統(tǒng)中的小文件存儲和訪問方法(專利號：CN201010208495.9)。

3.大批量文件數(shù)據(jù)存放和讀取方法(專利號：CN200710199002.8)。

專利1提出了一種集群存儲中并行訪問大量小文件的方法及系統(tǒng)，該方法包括：對寫入的小文件進(jìn)行緩沖；將緩沖的多個小文件合并為一個臨時文件；將所述臨時文件的元數(shù)據(jù)和數(shù)據(jù)對象存儲至元數(shù)據(jù)服務(wù)器節(jié)點(diǎn)和數(shù)據(jù)服務(wù)器節(jié)點(diǎn)的后端存儲中，從而可以有效地提高集群文件系統(tǒng)服務(wù)的響應(yīng)時間和速度，提升數(shù)據(jù)整體的單位時間數(shù)據(jù)讀寫次數(shù)、吞吐量。

專利2提出了一種機(jī)群文件系統(tǒng)中的小文件存儲和訪問方法。該方法有三大步驟：(1)設(shè)置閾值，區(qū)分大小文件；(2)在元數(shù)據(jù)服務(wù)器上，存儲小文件的數(shù)據(jù)；(3)在元數(shù)據(jù)服務(wù)器上，進(jìn)行小文件創(chuàng)建、讀寫和刪除。由于該發(fā)明把小文件的數(shù)據(jù)存儲在元數(shù)據(jù)服務(wù)器上，這樣對于小文件的IO訪問操作，如創(chuàng)建、讀寫和刪除等，發(fā)起IO訪問的客戶端只需要與元數(shù)據(jù)服務(wù)器交互，無需與數(shù)據(jù)服務(wù)器交互，減少了小文件訪問的網(wǎng)絡(luò)延遲，提高了小文件IO的性能，從而從整體上提高了機(jī)群文件系統(tǒng)的IO性能。

專利3提出了一種大批量文件數(shù)據(jù)存取方法，包括將所有小文件的數(shù)據(jù)合并成一個大文件；建立每個小文件的文件名及其文件編號的一一對應(yīng)關(guān)系；建立每個所述文件編號與小文件的文件信息的對應(yīng)關(guān)系，所述文件信息包括所述小文件在所述大文件中的位置。相應(yīng)地，該發(fā)明還公開一種大批量文件數(shù)據(jù)讀取方法，用于讀取按照本發(fā)明的存放方法存放的文件數(shù)據(jù)，包括步驟：根據(jù)小文件的文件名來獲得所述小文件的文件編號；根據(jù)所述文件編號獲得所述小文件的文件信息；根據(jù)所述文件信息獲得所述小文件在大文件中的位置；根據(jù)所述小文件在大文件中的位置，通過所述大文件的IO接口實現(xiàn)對所述小文件數(shù)據(jù)的讀取。

上述現(xiàn)有解決小文件存儲問題的專利技術(shù)方案存在以下問題：

1.已有小文件存儲效率的研究主要集中在非云存儲的文件系統(tǒng)上，而不是針對云存儲環(huán)境下的分布式文件系統(tǒng)，即Hadoop分布式文件系統(tǒng)上的存儲優(yōu)化方法；

2.現(xiàn)有專利雖然提出了合并小文件的方法，但在合并時沒有考慮文件之間的關(guān)聯(lián)關(guān)系，并且合并后讀取文件時所增加的索引查詢會影響文件的讀取效率。

發(fā)明內(nèi)容

本發(fā)明的目的在于解決現(xiàn)有Hadoop分布式文件系統(tǒng)對大規(guī)模非獨(dú)立小文件存儲和讀取效率低下的問題，提供一種Hadoop分布式文件系統(tǒng)上的存儲優(yōu)化方法。

為達(dá)到以上目的，本發(fā)明是采取如下技術(shù)方案予以實現(xiàn)的：

一種基于Hadoop的海量非獨(dú)立小文件關(guān)聯(lián)存儲方法，包括DataNode(Hadoop分布式文件系統(tǒng)的數(shù)據(jù)存儲節(jié)點(diǎn)，用來存儲數(shù)據(jù))端局部索引管理、文件歸并和元數(shù)據(jù)緩存、局部索引文件預(yù)取和關(guān)聯(lián)文件預(yù)取，所述非獨(dú)立小文件是指某些大文件被分割成許多小的文件進(jìn)行存儲和讀取，這些小文件是該大文件的一部分；具體步驟如下：

(1)將屬于某個大文件的所有小文件歸并為一個文件，稱之為merged?file，該文件歸并步驟用于提高非獨(dú)立小文件存儲效率；(2)對每個merged?file建立一個局部索引，并在上傳時將局部索引文件與文件實體一同存放在Hadoop文件系統(tǒng)的DataNode上，該DataNode端局部索引管理步驟用于歸并后小文件的管理；(3)在讀取非獨(dú)立小文件時，采用元數(shù)據(jù)緩存、局部索引文件預(yù)取和關(guān)聯(lián)文件預(yù)取，該步驟用于提高非獨(dú)立小文件的讀取效率。

上述方法中，所述DataNode端局部索引管理包括：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學(xué)，未經(jīng)西安交通大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201110312671.8/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機(jī)輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】