[發明專利]一種海量教育文件關聯存儲方法在審

申請號：	201810496005.6	申請日：	2018-05-22
公開（公告）號：	CN108664664A	公開（公告）日：	2018-10-16
發明（設計）人：	曹晟;畢丙偉;鄒杰成;王靖;梅亞雙;陳澤東	申請（專利權）人：	電子科技大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	成都行之專利代理事務所(普通合伙) 51220	代理人：	溫利平
地址：	611731 四川省成***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文件關聯教育存儲緩存海量小文件存儲步驟存儲空間存儲領域關聯存儲教育資源局部索引文件碎片充分性高效性小文件預取歸并關聯應用
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種海量教育文件關聯存儲方法，其特征在于，包括：

S1：海量教育文件的歸并；

S2：海量教育文件中的局部索引；

S3：海量教育文件的緩存與預取；

S4：海量教育文件碎片的整理。

2.根據權利要求1所述的海量教育文件關聯存儲方法，其特征在于，文件歸并步驟如下：

Step1：將屬于某個大文件的所有小文件歸并為一個文件，稱為merged file；

Step2：對每個merged file建立一個局部索引，并在上傳時將局部索引文件與文件實體一同存放在Hadoop系統的DataNode上；

Step3：在讀取非獨立小文件時，采用元數據緩存、局部索引文件預取和關聯文件預取提高文件的讀取效率。

3.根據權利要求2所述的海量教育文件關聯存儲方法，其特征在于，局部索引的文件結構如下：

局部索引文件采用靜態查找表結構，由索引頭部、序列索引和文件索引3部分構成：

(1)索引頭部由占1字節的版本號、占4字節的索引項數和占4字節的局部索引文件長度組成；

(2)序列索引由占4字節的序列名稱、占4字節的文件索引的起始編號和占4字節的文件索引項數構成；

(3)文件索引項由占16字節的文件名稱、占4字節的文件長度和占4字節的文件偏移構成。

4.根據權利要求2所述的一種海量教育文件關聯存儲方法，其特征在于，讀取mergedfile時對局部索引文件的操作，包括如下步驟：

Step1：根據merged file名從NameNode獲取元數據；

Step2：由merged file的元數據，從Hadoop文件系統的相應DataNode讀取指定的數據塊，并根據數據塊內索引文件長度項讀取數據塊的局部索引文件；

Step3：最后根據小文件名稱，查找局部索引文件，獲得該小文件的起始位置和長度，從而完成對小文件的讀操作。

5.根據權利要求1所述的海量教育文件關聯存儲方法，其特征在于，局部索引確定包括如下步驟：

Step1：依次計算每個文件的偏移，在數據塊的邊界處，檢查是否有文件會橫跨兩個數據塊，如果沒有，轉向Step3，否則，轉向Step2；

Step2：在這個橫跨兩個數據塊的小文件前，建立額外的局部索引文件，該索引文件的偏移是下一個數據塊的起始位置，橫跨小文件的偏移是該局部索引文件的結束位置，設塊長為L_block，局部索引文件的大小為L_index，新塊的序列號為W，新索引文件偏移量為L_offset，新索引文件長度為L_length，橫跨小文件的偏移量為L_foffset，則：

L_offset＝(W-1)*L_block (5.1)

L_length＝L_index (5.2)

L_foffset＝L_offset+L_length (5.3)

Step3：對下一個數據塊，重復Step1和Step2。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于電子科技大學，未經電子科技大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810496005.6/1.html，轉載請聲明來源鉆瓜專利網。