[發明專利]一種針對Hadoop分布式文件系統的存儲優化方法有效
| 申請號: | 202110644122.4 | 申請日: | 2021-06-09 |
| 公開(公告)號: | CN113377733B | 公開(公告)日: | 2022-12-27 |
| 發明(設計)人: | 王周愷;賈喬;馬維綱;王懷軍;曹霆;李宇昕;王侃 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/182;G06F16/172;G06F16/16 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 劉娜 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 hadoop 分布式 文件系統 存儲 優化 方法 | ||
本發明公開了一種針對Hadoop分布式文件系統的存儲優化方法,具體為:首先,選取INFO級別日志文件,所選取的日志文件包含具體執行時間戳和文件名信息,獲取INFO級別日志文件的訪問記錄和刪除記錄;將IFNO級別日志中所有包含關鍵詞的信息提取并整理,再按照時間戳進行排序并編號;之后確定特征標簽,選取特征,構建特征向量,形成訓練文件淘汰模型的樣本集;選擇特征向量的三個特征值依次作為決策樹的三個分類節點,采用ID3算法建立決策樹,并由決策樹構建文件淘汰模型;最后,使用建立的文件淘汰模型,預測文件可復用性。本發明的方法,優化分布式文件系統的存儲效率,減小數據存儲規模,提HDFS的存儲效率。
技術領域
本發明屬于數據存儲技術領域,具體涉及一種針對Hadoop分布式文件系統的存儲優化方法。
背景技術
隨著大數據計算引擎(例如Apache Hadoop以及Apache Spark)的應用愈發廣泛,不斷地有大量新數據需要被存儲在Hadoop分布式文件系統HDFS中,對HDFS的存儲造成了很大壓力。傳統的方法通過增加硬件投入,持續擴大HDFS的容量,從而存儲海量增長的數據,但這樣做成本偏高,而且大部分在HDFS中存儲的數據利用價值低,被使用或被其他設備訪問的概率低,浪費了大量硬件資源和軟件成本。
在云計算時代,針對大規模分布式文件系統的存儲優化問題正得到越來越廣泛的關注。例如Kirsten等人從訪問率均衡與數據價值的角度,針對廣義的分布式文件系統提出了負載均衡的方法。Shruthi等提出了一種存儲空間聚類算法,通過定義數據相似與關聯度定義節點之間的“距離”,將數據放在合適的節點上,可以減少訪問時間與工作時的節點訪問次數。此類方法雖然可以在一定程度上優化分布式文件系統,提高存儲空間的率用率,但需要對HDFS的底層架構和核心分配規則進行更改,因此實現難度較高,且可移植性差。在國內,付印金等人提出了基于重復數據刪除的虛擬桌面優化技術,伍秋平等人提出了一種面向云存儲數據容錯的ARC緩存淘汰機制。此類方法使用糾刪碼容錯,只在緩存中使用傳統的副本冗余容錯,亦取得了較好的效果,顯著減小了分布式文件系統的存儲空間。但這類方法主要針對文件系統中的重復數據進行淘汰和刪除,然而在真正的分布式文件系統中,重復數據占比并不大,占存儲數據比例大的是大量僅使用過一次或數次的低價值數據,而上述方法對于分布式存儲系統,特別是HDFS中大量重復利用率低的數據無法做到有效甄別和刪除。
發明內容
本發明的目的在于提供一種針對Hadoop分布式文件系統的存儲優化方法,優化分布式文件系統的存儲效率,減小數據存儲規模,提HDFS的存儲效率。
本發明所采用的技術方案是,一種針對Hadoop分布式文件系統的存儲優化方法,具體按照以下步驟實施:
步驟1,提取文件操作記錄,具體為:
步驟1.1:選取INFO級別日志文件,所選取的日志文件包含具體執行時間戳和文件名信息;
步驟1.2:獲取INFO級別日志文件的訪問記錄;
步驟1.3:獲取INFO級別日志文件的刪除記錄;
步驟1.4:將IFNO級別日志中所有包含關鍵詞的信息提取并整理,再按照時間戳進行排序并編號;選擇type表示操作類型,1代表刪除操作,0代表訪問操作,F表示文件名稱,d表示發生操作的時間;
步驟2:確定特征標簽label,選取特征,構建特征向量,形成訓練文件淘汰模型的樣本集;
步驟3:選擇特征向量的三個特征值依次作為決策樹的三個分類節點,采用ID3算法建立決策樹,并由決策樹構建文件淘汰模型;以MLlib為工具,調用MLlib的編程接口,以樣本集作為輸入,訓練文件淘汰模型,待訓練結束后,將其以json格式保存回HDFS上,供以后淘汰文件使用;
步驟4:使用建立的文件淘汰模型,預測文件可復用性。
本發明的特點還在于,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110644122.4/2.html,轉載請聲明來源鉆瓜專利網。





