[發明專利]一種海量教育文件關聯存儲方法在審
| 申請號: | 201810496005.6 | 申請日: | 2018-05-22 |
| 公開(公告)號: | CN108664664A | 公開(公告)日: | 2018-10-16 |
| 發明(設計)人: | 曹晟;畢丙偉;鄒杰成;王靖;梅亞雙;陳澤東 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 溫利平 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文件關聯 教育 存儲 緩存 海量小文件 存儲步驟 存儲空間 存儲領域 關聯存儲 教育資源 局部索引 文件碎片 充分性 高效性 小文件 預取 歸并 關聯 應用 | ||
1.一種海量教育文件關聯存儲方法,其特征在于,包括:
S1:海量教育文件的歸并;
S2:海量教育文件中的局部索引;
S3:海量教育文件的緩存與預取;
S4:海量教育文件碎片的整理。
2.根據權利要求1所述的海量教育文件關聯存儲方法,其特征在于,文件歸并步驟如下:
Step1:將屬于某個大文件的所有小文件歸并為一個文件,稱為merged file;
Step2:對每個merged file建立一個局部索引,并在上傳時將局部索引文件與文件實體一同存放在Hadoop系統的DataNode上;
Step3:在讀取非獨立小文件時,采用元數據緩存、局部索引文件預取和關聯文件預取提高文件的讀取效率。
3.根據權利要求2所述的海量教育文件關聯存儲方法,其特征在于,局部索引的文件結構如下:
局部索引文件采用靜態查找表結構,由索引頭部、序列索引和文件索引3部分構成:
(1)索引頭部由占1字節的版本號、占4字節的索引項數和占4字節的局部索引文件長度組成;
(2)序列索引由占4字節的序列名稱、占4字節的文件索引的起始編號和占4字節的文件索引項數構成;
(3)文件索引項由占16字節的文件名稱、占4字節的文件長度和占4字節的文件偏移構成。
4.根據權利要求2所述的一種海量教育文件關聯存儲方法,其特征在于,讀取mergedfile時對局部索引文件的操作,包括如下步驟:
Step1:根據merged file名從NameNode獲取元數據;
Step2:由merged file的元數據,從Hadoop文件系統的相應DataNode讀取指定的數據塊,并根據數據塊內索引文件長度項讀取數據塊的局部索引文件;
Step3:最后根據小文件名稱,查找局部索引文件,獲得該小文件的起始位置和長度,從而完成對小文件的讀操作。
5.根據權利要求1所述的海量教育文件關聯存儲方法,其特征在于,局部索引確定包括如下步驟:
Step1:依次計算每個文件的偏移,在數據塊的邊界處,檢查是否有文件會橫跨兩個數據塊,如果沒有,轉向Step3,否則,轉向Step2;
Step2:在這個橫跨兩個數據塊的小文件前,建立額外的局部索引文件,該索引文件的偏移是下一個數據塊的起始位置,橫跨小文件的偏移是該局部索引文件的結束位置,設塊長為Lblock,局部索引文件的大小為Lindex,新塊的序列號為W,新索引文件偏移量為Loffset,新索引文件長度為Llength,橫跨小文件的偏移量為Lfoffset,則:
Loffset=(W-1)*Lblock (5.1)
Llength=Lindex (5.2)
Lfoffset=Loffset+Llength (5.3)
Step3:對下一個數據塊,重復Step1和Step2。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810496005.6/1.html,轉載請聲明來源鉆瓜專利網。





