[發(fā)明專利]一種針對Hadoop分布式文件系統(tǒng)的存儲優(yōu)化方法有效

申請?zhí)枺?/td>	202110644122.4	申請日：	2021-06-09
公開（公告）號：	CN113377733B	公開（公告）日：	2022-12-27
發(fā)明（設(shè)計）人：	王周愷;賈喬;馬維綱;王懷軍;曹霆;李宇昕;王侃	申請（專利權(quán)）人：	西安理工大學(xué)
主分類號：	G06F16/18	分類號：	G06F16/18;G06F16/182;G06F16/172;G06F16/16
代理公司：	西安弘理專利事務(wù)所 61214	代理人：	劉娜
地址：	710048 陜***	國省代碼：	陜西;61
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種針對 hadoop 分布式文件系統(tǒng) 存儲優(yōu)化方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種針對Hadoop分布式文件系統(tǒng)的存儲優(yōu)化方法，其特征在于，具體按照以下步驟實施：

步驟1，提取文件操作記錄，具體為：

步驟1.1：選取INFO級別日志文件，所選取的日志文件包含具體執(zhí)行時間戳和文件名信息；

步驟1.2：獲取INFO級別日志文件的訪問記錄；

對于日志文件訪問記錄的獲取，使用filter操作結(jié)合lambda表達(dá)式，從日志文件中找出所有包含completeFile關(guān)鍵字，由NameNode節(jié)點產(chǎn)生的信息，并提取出其中包含的時間戳關(guān)鍵字以及文件名關(guān)鍵字作為文件訪問記錄加以保存，存放到HDFS中；

步驟1.3：獲取INFO級別日志文件的刪除記錄；

首先使用filter函數(shù)結(jié)合lambda表達(dá)式，從日志文件中找出所有包含addToInvalidates關(guān)鍵字，由NameNode節(jié)點產(chǎn)生的信息；然后提取出其中包含的時間戳關(guān)鍵字以及塊名關(guān)鍵字；再利用相同的filter函數(shù)與lambda表達(dá)式，從日志文件中找出和addToInvalidates信息中所包含的塊名關(guān)鍵字相同的，包含關(guān)鍵字allocateBlock的信息，并提取出其中包含的文件名關(guān)鍵字和時間戳關(guān)鍵字；最后，將上述allocateBlock信息中包含的文件名關(guān)鍵字和對應(yīng)addToInvalidates信息中的時間戳關(guān)鍵字作為文件刪除記錄加以保存，存放到HDFS中；

步驟1.4：將IFNO級別日志中所有包含關(guān)鍵詞的信息提取并整理，再按照時間戳進(jìn)行排序并編號；選擇type表示操作類型，1代表刪除操作，0代表訪問操作，F(xiàn)表示文件名稱，d表示發(fā)生操作的時間；

步驟2：確定特征標(biāo)簽label，選取特征，構(gòu)建特征向量，形成訓(xùn)練文件淘汰模型的樣本集；具體為：

步驟2.1：定義樣本集的label為“是否可以刪除”；“yes”為正標(biāo)簽，表示文件復(fù)用可能性很低，可以刪除，標(biāo)定為“yes”的元組屬于正樣本；“no”為負(fù)標(biāo)簽，表示文件可能復(fù)用，不可刪除，標(biāo)定為“no”的元組屬于負(fù)樣本；

將每條文件訪問、刪除記錄轉(zhuǎn)為一條含特征標(biāo)簽的特征向量元組；對于元組特征，將type作為label信息；所述特征標(biāo)簽的主要對應(yīng)規(guī)則如下：

對每一條文件操作記錄r0：

a)若type＝0，該記錄被記為訪問記錄；表明在該文件操作發(fā)生的時間d時，對應(yīng)文件F被復(fù)用；文件在d時具有復(fù)用可能性，不可刪除；元組標(biāo)定為“no”，為負(fù)樣本；

b)若type＝1，該記錄被記為刪除記錄；表明在該文件操作發(fā)生的時間d時及以后，對應(yīng)文件f不再具有復(fù)用可能性，可以刪除；元組標(biāo)定為“yes”，為正樣本；

步驟2.2：選取特征；

將HDFS中的文件訪問記錄和文件刪除記錄全部取出，對于文件名相同的記錄，計算創(chuàng)建時間長度d_c，單位：天；未訪問時長d_a，單位：天；創(chuàng)建至今平均每天訪問頻次f_rq；分別如式(1)、式(2)及式(3)所示，形成樣本集的特征，由所述標(biāo)簽和所述特征組成的每一條記錄也叫特征向量；

d_c＝d₀-d_c0 (1)；

d_a＝d₀-d_a0 (2)；

式中，d_c0為文件創(chuàng)建日期；d₀為文件時間戳；d_a0為文件最后一次訪問日期；n₀為至d₀時刻對文件的訪問次數(shù)；

步驟3：選擇所述特征向量的三個特征d_c、d_a、f_rq依次作為決策樹的三個分類節(jié)點，采用ID3算法建立決策樹，并由決策樹構(gòu)建文件淘汰模型；以MLlib為工具，調(diào)用MLlib的編程接口，以樣本集作為輸入，訓(xùn)練文件淘汰模型，待訓(xùn)練結(jié)束后，將其以json格式保存回HDFS上，供以后淘汰文件使用；

步驟4：使用建立的文件淘汰模型，預(yù)測文件可復(fù)用性。

2.根據(jù)權(quán)利要求1所述的一種針對Hadoop分布式文件系統(tǒng)的存儲優(yōu)化方法，其特征在于，所述步驟4中，具體為：首先要從HDFS上讀入當(dāng)前的文件列表，然后用已訓(xùn)練完畢的文件淘汰模型預(yù)測其可否刪除；對每個文件，通過文件名從日志中提取所有該文件的操作記錄，通過計算該文件在d時刻的label,d_c,d_a,f_rq，得到一條特征向量，進(jìn)入訓(xùn)練好的決策樹預(yù)測，返回標(biāo)簽“可以刪除yes”或“建議保留no”。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學(xué)，未經(jīng)西安理工大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110644122.4/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：FPGA芯片測試方法、裝置、系統(tǒng)及存儲介質(zhì)
下一篇：重卡新能源汽車動力電池控制系統(tǒng)

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】