[發(fā)明專利]一種針對Hadoop分布式文件系統(tǒng)的存儲優(yōu)化方法有效
| 申請?zhí)枺?/td> | 202110644122.4 | 申請日: | 2021-06-09 |
| 公開(公告)號: | CN113377733B | 公開(公告)日: | 2022-12-27 |
| 發(fā)明(設(shè)計)人: | 王周愷;賈喬;馬維綱;王懷軍;曹霆;李宇昕;王侃 | 申請(專利權(quán))人: | 西安理工大學(xué) |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/182;G06F16/172;G06F16/16 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 劉娜 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對 hadoop 分布式 文件系統(tǒng) 存儲 優(yōu)化 方法 | ||
1.一種針對Hadoop分布式文件系統(tǒng)的存儲優(yōu)化方法,其特征在于,具體按照以下步驟實施:
步驟1,提取文件操作記錄,具體為:
步驟1.1:選取INFO級別日志文件,所選取的日志文件包含具體執(zhí)行時間戳和文件名信息;
步驟1.2:獲取INFO級別日志文件的訪問記錄;
對于日志文件訪問記錄的獲取,使用filter操作結(jié)合lambda表達(dá)式,從日志文件中找出所有包含completeFile關(guān)鍵字,由NameNode節(jié)點產(chǎn)生的信息,并提取出其中包含的時間戳關(guān)鍵字以及文件名關(guān)鍵字作為文件訪問記錄加以保存,存放到HDFS中;
步驟1.3:獲取INFO級別日志文件的刪除記錄;
首先使用filter函數(shù)結(jié)合lambda表達(dá)式,從日志文件中找出所有包含addToInvalidates關(guān)鍵字,由NameNode節(jié)點產(chǎn)生的信息;然后提取出其中包含的時間戳關(guān)鍵字以及塊名關(guān)鍵字;再利用相同的filter函數(shù)與lambda表達(dá)式,從日志文件中找出和addToInvalidates信息中所包含的塊名關(guān)鍵字相同的,包含關(guān)鍵字allocateBlock的信息,并提取出其中包含的文件名關(guān)鍵字和時間戳關(guān)鍵字;最后,將上述allocateBlock信息中包含的文件名關(guān)鍵字和對應(yīng)addToInvalidates信息中的時間戳關(guān)鍵字作為文件刪除記錄加以保存,存放到HDFS中;
步驟1.4:將IFNO級別日志中所有包含關(guān)鍵詞的信息提取并整理,再按照時間戳進(jìn)行排序并編號;選擇type表示操作類型,1代表刪除操作,0代表訪問操作,F(xiàn)表示文件名稱,d表示發(fā)生操作的時間;
步驟2:確定特征標(biāo)簽label,選取特征,構(gòu)建特征向量,形成訓(xùn)練文件淘汰模型的樣本集;具體為:
步驟2.1:定義樣本集的label為“是否可以刪除”;“yes”為正標(biāo)簽,表示文件復(fù)用可能性很低,可以刪除,標(biāo)定為“yes”的元組屬于正樣本;“no”為負(fù)標(biāo)簽,表示文件可能復(fù)用,不可刪除,標(biāo)定為“no”的元組屬于負(fù)樣本;
將每條文件訪問、刪除記錄轉(zhuǎn)為一條含特征標(biāo)簽的特征向量元組;對于元組特征,將type作為label信息;所述特征標(biāo)簽的主要對應(yīng)規(guī)則如下:
對每一條文件操作記錄r0:
a)若type=0,該記錄被記為訪問記錄;表明在該文件操作發(fā)生的時間d時,對應(yīng)文件F被復(fù)用;文件在d時具有復(fù)用可能性,不可刪除;元組標(biāo)定為“no”,為負(fù)樣本;
b)若type=1,該記錄被記為刪除記錄;表明在該文件操作發(fā)生的時間d時及以后,對應(yīng)文件f不再具有復(fù)用可能性,可以刪除;元組標(biāo)定為“yes”,為正樣本;
步驟2.2:選取特征;
將HDFS中的文件訪問記錄和文件刪除記錄全部取出,對于文件名相同的記錄,計算創(chuàng)建時間長度dc,單位:天;未訪問時長da,單位:天;創(chuàng)建至今平均每天訪問頻次frq;分別如式(1)、式(2)及式(3)所示,形成樣本集的特征,由所述標(biāo)簽和所述特征組成的每一條記錄也叫特征向量;
dc=d0-dc0 (1);
da=d0-da0 (2);
式中,dc0為文件創(chuàng)建日期;d0為文件時間戳;da0為文件最后一次訪問日期;n0為至d0時刻對文件的訪問次數(shù);
步驟3:選擇所述特征向量的三個特征dc、da、frq依次作為決策樹的三個分類節(jié)點,采用ID3算法建立決策樹,并由決策樹構(gòu)建文件淘汰模型;以MLlib為工具,調(diào)用MLlib的編程接口,以樣本集作為輸入,訓(xùn)練文件淘汰模型,待訓(xùn)練結(jié)束后,將其以json格式保存回HDFS上,供以后淘汰文件使用;
步驟4:使用建立的文件淘汰模型,預(yù)測文件可復(fù)用性。
2.根據(jù)權(quán)利要求1所述的一種針對Hadoop分布式文件系統(tǒng)的存儲優(yōu)化方法,其特征在于,所述步驟4中,具體為:首先要從HDFS上讀入當(dāng)前的文件列表,然后用已訓(xùn)練完畢的文件淘汰模型預(yù)測其可否刪除;對每個文件,通過文件名從日志中提取所有該文件的操作記錄,通過計算該文件在d時刻的label,dc,da,frq,得到一條特征向量,進(jìn)入訓(xùn)練好的決策樹預(yù)測,返回標(biāo)簽“可以刪除yes”或“建議保留no”。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學(xué),未經(jīng)西安理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110644122.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種實現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計算的Hadoop平臺度量方法
- 云環(huán)境中模型驅(qū)動的Hadoop部署方法
- 基于麒麟云計算平臺的Hadoop集群自動化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲、查詢的方法、裝置、系統(tǒng)、設(shè)備、存儲介質(zhì)
- 一種文件型門衛(wèi)式存儲加密功能的Hadoop系統(tǒng)及其應(yīng)用方法





