[發(fā)明專利]一種基于Hadoop的海量非獨立小文件關(guān)聯(lián)存儲方法無效
| 申請?zhí)枺?/td> | 201110312671.8 | 申請日: | 2011-10-15 |
| 公開(公告)號: | CN102332027A | 公開(公告)日: | 2012-01-25 |
| 發(fā)明(設(shè)計)人: | 鄭慶華;董博;劉均;馬瑞;宋凱磊 | 申請(專利權(quán))人: | 西安交通大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 朱海臨 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 hadoop 海量 獨立 文件 關(guān)聯(lián) 存儲 方法 | ||
1.一種基于Hadoop的海量非獨立小文件關(guān)聯(lián)存儲方法,其特征在于,包括DataNode端局部索引管理、文件歸并和元數(shù)據(jù)緩存、局部索引文件預(yù)取和關(guān)聯(lián)文件預(yù)取,所述非獨立小文件是指某些大文件被分割成許多小的文件進行存儲和讀取,這些小文件是該大文件的一部分;具體步驟如下:
(1)將屬于某個大文件的所有小文件歸并為一個文件,稱之為merged?file,該文件歸并步驟用于提高非獨立小文件存儲效率;(2)對每個merged?file建立一個局部索引,并在上傳時將局部索引文件與文件實體一同存放在Hadoop文件系統(tǒng)的DataNode上,該DataNode端局部索引管理步驟用于歸并后小文件的管理;(3)在讀取非獨立小文件時,采用元數(shù)據(jù)緩存、局部索引文件預(yù)取和關(guān)聯(lián)文件預(yù)取,該步驟用于提高非獨立小文件的讀取效率。
2.如權(quán)利要求1所述的基于Hadoop的海量非獨立小文件關(guān)聯(lián)存儲方法,其特征在于,所述DataNode端局部索引管理包括:
為每一個merged?file建立一個局部索引文件,記錄屬于該merged?file的所有小文件的起始位置和長度,局部索引文件位于該merged?file的每一個塊的起始位置,并且只為該merged?file服務(wù);
(1)局部索引文件結(jié)構(gòu)
局部索引文件采用靜態(tài)查找表結(jié)構(gòu),由索引頭部、序列索引和文件索引三部分構(gòu)成;其中索引頭部由占1字節(jié)的版本號、占4字節(jié)的索引項數(shù)和占4字節(jié)的局部索引文件長度組成;序列索引由占4字節(jié)的序列名稱、占4字節(jié)的文件索引的起始編號和占4字節(jié)的文件索引項數(shù)構(gòu)成;文件索引項由占16字節(jié)的文件名稱、占4字節(jié)的文件長度和占4字節(jié)的文件偏移構(gòu)成;
(2)讀文件時對局部索引文件的操作
首先,根據(jù)merged?file名從NameNode獲取元數(shù)據(jù);然后,由merged?file的元數(shù)據(jù),從Hadoop文件系統(tǒng)的相應(yīng)DataNode讀取指定的數(shù)據(jù)塊,并根據(jù)數(shù)據(jù)塊內(nèi)索引文件長度項讀取數(shù)據(jù)塊的局部索引文件;最后根據(jù)小文件名稱,查找局部索引文件,獲得該小文件的起始位置和長度,從而完成對小文件的讀操作;
當該merged?file的小文件數(shù)目少于1000時,采用順序查找方法;當小文件的數(shù)目超過1000時,順序查找會影響讀取性能,在文件索引上建立序列索引,避免查詢的開銷過大;
如果是一級索引格式,則從局部索引文件中第一個目錄項開始,與請求小文件名稱逐條對比,若文件索引項的小文件名稱符合,則查找成功,返回該小文件索引記錄;否則,繼續(xù)查找直至最后一個記錄項,若沒有記錄項符合,則返回小文件名查找失敗;
如果是兩級索引格式,則查找分為兩個階段:首先根據(jù)待查小文件的序列名稱,在序列索引表中查找序列,如果索引表內(nèi)沒有記錄項,則表明該序列不存在;否則根據(jù)序列指定的位置,開始順序查找文件索引位置。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學,未經(jīng)西安交通大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110312671.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種骨外固定支架導(dǎo)向器
- 下一篇:具有自動噴蠟功能的打蠟機
- 一種實現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計算的Hadoop平臺度量方法
- 云環(huán)境中模型驅(qū)動的Hadoop部署方法
- 基于麒麟云計算平臺的Hadoop集群自動化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲、查詢的方法、裝置、系統(tǒng)、設(shè)備、存儲介質(zhì)
- 一種文件型門衛(wèi)式存儲加密功能的Hadoop系統(tǒng)及其應(yīng)用方法
- 一種數(shù)據(jù)庫海量數(shù)據(jù)比對的方法
- 基于云計算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實現(xiàn)海量數(shù)據(jù)準實時全量統(tǒng)計的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲方法





