[發(fā)明專利]一種HDFS的存儲結構優(yōu)化方法有效
| 申請?zhí)枺?/td> | 201711337752.7 | 申請日: | 2017-12-14 |
| 公開(公告)號: | CN107944041B | 公開(公告)日: | 2021-11-09 |
| 發(fā)明(設計)人: | 何鑫 | 申請(專利權)人: | 成都雅駿新能源汽車科技股份有限公司 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/13;G06F11/14 |
| 代理公司: | 成都九鼎天元知識產(chǎn)權代理有限公司 51214 | 代理人: | 劉世權 |
| 地址: | 610000 四川省成都市天府新區(qū)新*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 hdfs 存儲 結構 優(yōu)化 方法 | ||
本發(fā)明公開了一種HDFS存儲結構的優(yōu)化方法,具體實現(xiàn)步驟如下:第一步,分別對數(shù)據(jù)文件分割的數(shù)據(jù)塊進行指紋計算;第二步,利用Hash函數(shù)完成指紋匹配,若出現(xiàn)相同值,則判定該塊重復;第三步,重復塊存儲對應的索引,新數(shù)據(jù)塊進行存儲和更新指紋庫流程;第四步,更新文件的元數(shù)據(jù)信息;第五步,通過CubeHash函數(shù)計算Hash值,并引入關鍵詞提取策略、特征向量權值計算、余弦系數(shù)法進行數(shù)據(jù)的相同和相似性判斷;第六步,根據(jù)標簽刪除重復數(shù)據(jù)。本發(fā)明設計合理,實現(xiàn)了標簽化去重,使得HDFS的存儲結構得到優(yōu)化。
技術領域
本發(fā)明涉及一種HDFS存儲結構的優(yōu)化方法。
背景技術
HDFS是在GFS分布式文件系統(tǒng)的基礎上開源實現(xiàn)的,因此,HDFS具有GFS的特性。GFS是由Google開發(fā)的,它具有極強的容錯能力、優(yōu)異的擴展性,被廣泛應用于高效存儲和讀取海量分布式數(shù)據(jù)的應用當中。通過深入地剖析GFS的特性和原理能夠從本質上對HDFS進行理解。通常情況下,文件系統(tǒng)的集群由一個Master附帶多個Chunkserver組成,并可以通過多個Client進行訪問。當Client發(fā)出存儲文件請求時,首先將文件分割成大小固定的Chunk塊;然后,Master給每個Chunk塊分配唯一的標識Chunk Unicode;最終,Chunk塊被存儲在本地磁盤上,并依據(jù)對應的Chunk Unicode和字節(jié)范圍實現(xiàn)Chunkserver的讀寫操作。默認情況下,GFS會將每個Chunk塊復制保存到3個Chunkserver上,以確保數(shù)據(jù)的穩(wěn)定和安全,并且可以通過改變文件命名空間的設置完成不同的備份策略。圖3展示了GFS架構運行的流程:其中,命名規(guī)則、訪問控制、映射表等元數(shù)據(jù)信息保存在Master的內存或硬盤中。Master管理這些信息的同時,還通過心跳協(xié)議完成Chunk塊的校驗、備份、遷移等系統(tǒng)策略的實施。
現(xiàn)有技術介紹:
HDFS具有以下存儲策略:
容錯機制:HDFS默認為每個數(shù)據(jù)創(chuàng)建三個副本塊,第一個副本設置在本地機架的節(jié)點上;第二個副本存放在另一個節(jié)點的第一個相同機架上;第三個放置在該節(jié)點的不同機架上。HDFS文件存儲的過程中有兩種常見的錯誤:一種是節(jié)點故障,另一種是數(shù)據(jù)損壞。
節(jié)點故障主要是指由網(wǎng)絡分區(qū)導致的DataNode故障:DataNode定期向NameNode發(fā)送心跳消息,如果NameNode在規(guī)定時間內沒有收到DataNode的消息,DataNode就會被認為是無序的,會被標記為死節(jié)點。由于死節(jié)點的存在,NameNode會不斷檢測到數(shù)據(jù)副本的不足,隨即會啟動復制機制。
數(shù)據(jù)損壞是指從DataNode讀取的數(shù)據(jù)發(fā)生損壞現(xiàn)象:HDFS采用校驗文件方式檢測數(shù)據(jù)的完整性。當客戶端創(chuàng)建文件時,新文件包含數(shù)據(jù)塊的總和會被保存在校驗文件的校驗數(shù)中。客戶端讀取文件時,數(shù)據(jù)塊數(shù)的總和將與校驗文件中的校驗數(shù)進行比對,若二者相同,則數(shù)據(jù)完整,否則將讀取其他數(shù)據(jù)塊進行復制補充。
平衡機制:HDFS的平衡指文件塊良好地分布于集群的每個節(jié)點上。文件塊的分布是一個動態(tài)過程,HDFS提供了平衡器工具以確保存儲結果的平衡。
故障檢查和自動快速恢復能力是HDFS的核心目標。心跳機制實現(xiàn)了故障節(jié)點的檢測,通常使用這種機制驗證節(jié)點的可靠性,以便在寫入文件之前完成DataNode節(jié)點的過濾工作,從而將失效后的被動檢測轉換為使用前的主動篩選。機制的形式化描述如下:
(1)NameNode根據(jù)用戶和數(shù)據(jù)字符的需要給出可靠閾值H;
(2)NameNode計算離客戶端最近的機架;
(3)量化機架中所有節(jié)點的可靠性,將可靠性閾值小于H的節(jié)點刪除;
(4)量化剩余節(jié)點的存儲成本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都雅駿新能源汽車科技股份有限公司,未經(jīng)成都雅駿新能源汽車科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711337752.7/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種歌詞的顯示方法和移動終端
- 下一篇:一種IOP平臺的表格導出方法





