[發(fā)明專利]一種基于Hadoop的海量非獨立小文件關(guān)聯(lián)存儲方法無效

申請?zhí)枺?/td>	201110312671.8	申請日：	2011-10-15
公開（公告）號：	CN102332027A	公開（公告）日：	2012-01-25
發(fā)明（設(shè)計）人：	鄭慶華;董博;劉均;馬瑞;宋凱磊	申請（專利權(quán)）人：	西安交通大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	西安通大專利代理有限責任公司 61200	代理人：	朱海臨
地址：	710049 ***	國省代碼：	陜西;61
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于 hadoop 海量獨立文件關(guān)聯(lián) 存儲方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于Hadoop的海量非獨立小文件關(guān)聯(lián)存儲方法，其特征在于，包括DataNode端局部索引管理、文件歸并和元數(shù)據(jù)緩存、局部索引文件預(yù)取和關(guān)聯(lián)文件預(yù)取，所述非獨立小文件是指某些大文件被分割成許多小的文件進行存儲和讀取，這些小文件是該大文件的一部分；具體步驟如下：

(1)將屬于某個大文件的所有小文件歸并為一個文件，稱之為merged?file，該文件歸并步驟用于提高非獨立小文件存儲效率；(2)對每個merged?file建立一個局部索引，并在上傳時將局部索引文件與文件實體一同存放在Hadoop文件系統(tǒng)的DataNode上，該DataNode端局部索引管理步驟用于歸并后小文件的管理；(3)在讀取非獨立小文件時，采用元數(shù)據(jù)緩存、局部索引文件預(yù)取和關(guān)聯(lián)文件預(yù)取，該步驟用于提高非獨立小文件的讀取效率。

2.如權(quán)利要求1所述的基于Hadoop的海量非獨立小文件關(guān)聯(lián)存儲方法，其特征在于，所述DataNode端局部索引管理包括：

為每一個merged?file建立一個局部索引文件，記錄屬于該merged?file的所有小文件的起始位置和長度，局部索引文件位于該merged?file的每一個塊的起始位置，并且只為該merged?file服務(wù)；

(1)局部索引文件結(jié)構(gòu)

局部索引文件采用靜態(tài)查找表結(jié)構(gòu)，由索引頭部、序列索引和文件索引三部分構(gòu)成；其中索引頭部由占1字節(jié)的版本號、占4字節(jié)的索引項數(shù)和占4字節(jié)的局部索引文件長度組成；序列索引由占4字節(jié)的序列名稱、占4字節(jié)的文件索引的起始編號和占4字節(jié)的文件索引項數(shù)構(gòu)成；文件索引項由占16字節(jié)的文件名稱、占4字節(jié)的文件長度和占4字節(jié)的文件偏移構(gòu)成；

(2)讀文件時對局部索引文件的操作

首先，根據(jù)merged?file名從NameNode獲取元數(shù)據(jù)；然后，由merged?file的元數(shù)據(jù)，從Hadoop文件系統(tǒng)的相應(yīng)DataNode讀取指定的數(shù)據(jù)塊，并根據(jù)數(shù)據(jù)塊內(nèi)索引文件長度項讀取數(shù)據(jù)塊的局部索引文件；最后根據(jù)小文件名稱，查找局部索引文件，獲得該小文件的起始位置和長度，從而完成對小文件的讀操作；

當該merged?file的小文件數(shù)目少于1000時，采用順序查找方法；當小文件的數(shù)目超過1000時，順序查找會影響讀取性能，在文件索引上建立序列索引，避免查詢的開銷過大；

如果是一級索引格式，則從局部索引文件中第一個目錄項開始，與請求小文件名稱逐條對比，若文件索引項的小文件名稱符合，則查找成功，返回該小文件索引記錄；否則，繼續(xù)查找直至最后一個記錄項，若沒有記錄項符合，則返回小文件名查找失敗；

如果是兩級索引格式，則查找分為兩個階段：首先根據(jù)待查小文件的序列名稱，在序列索引表中查找序列，如果索引表內(nèi)沒有記錄項，則表明該序列不存在；否則根據(jù)序列指定的位置，開始順序查找文件索引位置。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學，未經(jīng)西安交通大學許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201110312671.8/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學運算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】