日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種基于HDFS存儲文件的去重方法及裝置有效

專利信息
申請?zhí)枺?/td> 201611159251.X 申請日: 2016-12-15
公開(公告)號: CN106649676B 公開(公告)日: 2020-06-19
發(fā)明(設(shè)計)人: 張為鋒 申請(專利權(quán))人: 北京銳安科技有限公司
主分類號: G06F16/174 分類號: G06F16/174
代理公司: 北京品源專利代理有限公司 11332 代理人: 胡彬;鄧猛烈
地址: 100044 北京市海淀區(qū)西小口*** 國省代碼: 北京;11
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 基于 hdfs 存儲 文件 方法 裝置
【說明書】:

發(fā)明實施例公開了一種基于HDFS存儲文件的去重方法及裝置。該方法包括:將待去重文件的文件指紋,與已存儲文件的文件指紋進行比對;如果比對結(jié)果為相同,根據(jù)所述待去重文件的文件標(biāo)識計算鏈接標(biāo)識;以所述鏈接標(biāo)識和相同的已存儲文件在存儲節(jié)點中的存儲地址,替換所述待去重文件的文件內(nèi)容,作為所述待去重文件的文件標(biāo)識的鍵值存儲到存儲節(jié)點中。通過本發(fā)明的技術(shù)方案,有效去除內(nèi)容重復(fù)的文件,減少文件數(shù)量,節(jié)約存儲空間,提升系統(tǒng)性能。

技術(shù)領(lǐng)域

本發(fā)明實施例涉及非結(jié)構(gòu)化數(shù)據(jù)存儲技術(shù),尤其涉及一種基于HDFS存儲文件的去重方法及裝置。

背景技術(shù)

Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,簡稱HDFS)是對超大規(guī)模數(shù)據(jù)集提供可靠存儲功能的系統(tǒng),建立在響應(yīng)以“一次寫入,多次讀取”任務(wù)的基礎(chǔ)上,對用戶應(yīng)用程序提供高帶寬的輸入輸出數(shù)據(jù)流。HDFS具有高容錯性,可以運行在低廉的硬件集群上。采用MASTER/SLAVES的主從架構(gòu),一個HDFS集群由一個Namenode節(jié)點(管理節(jié)點)和多個Datanode節(jié)點(存儲節(jié)點)組成。管理節(jié)點是一個中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的元數(shù)據(jù)和客戶端對文件的訪問。管理節(jié)點存儲著文件的元數(shù)據(jù),因此管理節(jié)點的內(nèi)存容量限制了文件的數(shù)量。HDFS默認(rèn)會將文件分割成block(存儲塊),例如64M為1個存儲塊。然后將各存儲塊以鍵值對的形式存儲在HDFS的存儲節(jié)點中,并將鍵值對的映射存到內(nèi)存中。每個文件、存儲塊以及索引目錄在內(nèi)存中均以對象的形式存儲,每個對象約占150字節(jié)。舉例來說,如果有1000000個小文件,每個文件占用一個存儲塊,則管理節(jié)點就至少需要300M的內(nèi)存;如果存儲1億甚至更多的文件時,需要20G甚至更多的內(nèi)存容量,解決辦法是搭建支持集群的內(nèi)存數(shù)據(jù)庫,但增加系統(tǒng)成本。如果小文件太多,占用過多的內(nèi)存資源,影響集群性能,需要對小文件進行合并,減少文件數(shù)量。

然而,在實際互聯(lián)網(wǎng)應(yīng)用中,存在著海量的小文件,尤其是隨著博客、微博、Facebook等社交網(wǎng)站的興起,改變了互聯(lián)網(wǎng)存儲內(nèi)容的方式。用戶基本上已經(jīng)成為互聯(lián)網(wǎng)內(nèi)容的創(chuàng)造者,其數(shù)據(jù)具有海量、多樣、動態(tài)變化等特點,由此產(chǎn)生了海量小文件,如狀態(tài)文件、用戶資料、頭像等。這些數(shù)據(jù)按照數(shù)據(jù)的存儲格式可以分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)具有相同的層次和網(wǎng)格結(jié)構(gòu),可以用數(shù)字或文字來描述;而有一些信息則無法用數(shù)字或者統(tǒng)一的結(jié)構(gòu)表示,例如,掃描圖像、傳真、照片、計算機生成的報告、字處理文檔、電子表格、演示文稿、語音和視頻等,這些即為非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)在經(jīng)過結(jié)構(gòu)化的提取之后,需要把原始文件進行保存,以供后續(xù)使用。

在很多領(lǐng)域中,非結(jié)構(gòu)化數(shù)據(jù)所占比例遠遠高于結(jié)構(gòu)化數(shù)據(jù)所占比例。非結(jié)構(gòu)化數(shù)據(jù)信息量非常大,如果直接存儲于數(shù)據(jù)庫中,除了大幅度加大數(shù)據(jù)庫的容量外,還會降低維護和應(yīng)用的效率。尤其是在互聯(lián)網(wǎng)獲得的非結(jié)構(gòu)化數(shù)據(jù)往往具有重復(fù)性,熱點事件在短時間內(nèi)會帶來大量的網(wǎng)民關(guān)注,導(dǎo)致少量非結(jié)構(gòu)化數(shù)據(jù)在短時間內(nèi)被大量重復(fù)利用,占用系統(tǒng)存儲空間。現(xiàn)有技術(shù)中,采用壓縮技術(shù)對數(shù)據(jù)按照一定的比例進行壓縮,但是非結(jié)構(gòu)化數(shù)據(jù)不具備嚴(yán)格的結(jié)構(gòu),較之結(jié)構(gòu)化信息更難以標(biāo)準(zhǔn)化,管理起來更困難。針對這些特點,目前HDFS存儲的海量非結(jié)構(gòu)化小文件采用Mapfile技術(shù)合并為大文件后,沒有經(jīng)過壓縮處理,占用的存儲空間多,因此,如何去除海量非結(jié)構(gòu)化數(shù)據(jù)中重復(fù)的內(nèi)容,節(jié)約存儲空間是急需解決的問題。

發(fā)明內(nèi)容

本發(fā)明實施例提供一種基于HDFS存儲文件的去重方法及裝置,以使HDFS處理存儲的海量非結(jié)構(gòu)化小文件時,有效去重,節(jié)約存儲空間。

第一方面,本發(fā)明實施例提供了一種基于HDFS存儲文件的去重方法,包括:

將待去重文件的文件指紋,與已存儲文件的文件指紋進行比對;

如果比對結(jié)果為相同,根據(jù)所述待去重文件的文件標(biāo)識計算鏈接標(biāo)識;

以所述鏈接標(biāo)識和相同的已存儲文件在存儲節(jié)點中的存儲地址,替換所述待去重文件的文件內(nèi)容,作為所述待去重文件的文件標(biāo)識的鍵值存儲到存儲節(jié)點中。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會員可以免費下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京銳安科技有限公司,未經(jīng)北京銳安科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611159251.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設(shè)計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關(guān)于我們 尋求報道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产伦高清一区二区三区| 91亚洲精品国偷拍| 日本黄页在线观看| 亚洲精品人| 国产精品免费一区二区区| 国产精品久久久久久久久久软件| 91久久久久久亚洲精品禁果| 中文字幕一区一区三区| 欧美日韩国产三区| 精品久久9999| 欧美精品六区| 久久艹亚洲| 国产精品综合在线观看| 热久久国产| 艳妇荡乳欲伦2| 亚洲乱亚洲乱妇28p| 欧美精品久久一区二区| 91精品夜夜| 99精品视频一区二区| 国产一二三区免费| 久久精品亚洲精品| 91夜夜夜| 国产精品欧美日韩在线| 99re6国产露脸精品视频网站| 特高潮videossexhd| 免费精品99久久国产综合精品应用| 一区二区三区国产欧美| 亚洲欧美国产中文字幕 | 国产日韩欧美专区| 国产精品美女久久久免费| 理论片午午伦夜理片在线播放 | 久久午夜鲁丝片| 国产欧美一区二区三区不卡高清| 亚洲精品国产一区二| 国产丝袜在线精品丝袜91| 久久99国产视频| 国产欧美日韩精品在线| 久久综合狠狠狠色97| 亚洲午夜精品一区二区三区| 久久精品国产久精国产| 中文字幕日本一区二区| 日韩一区二区中文字幕| 高清国产一区二区| 国产精品1区二区| 亚洲精品少妇一区二区| 一区二区免费播放| 精品久久小视频| 日韩亚洲精品视频| 亚洲一区二区福利视频| 亚洲欧美v国产一区二区| 国产在线视频99| 一二三区欧美| 欧美乱妇高清无乱码| 97精品久久人人爽人人爽| 亚洲欧美一区二区三区不卡| 欧美精品久久一区| 亚洲福利视频一区| 国产精品电影免费观看| 午夜免费片| 狠狠色噜噜狠狠狠狠奇米777| 欧美亚洲视频二区| 精品国产一区二区三区忘忧草| 美女脱免费看直播| 国内精品99| 色综合久久久| 日本中文字幕一区| 国产一级片网站| 中文av一区| 日本一区欧美| 中文字幕一区一区三区| 久久国产欧美日韩精品| 精品美女一区二区三区| 综合欧美一区二区三区| 免费毛片a| 国产精品九九九九九九| 91久久精品久久国产性色也91| 天天干狠狠插| 国产精品免费观看国产网曝瓜| 欧美日韩一区二区高清| 久久五月精品| 国产精品国产三级国产专区55| 国产精品剧情一区二区三区|