日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種去重方法及系統在審

專利信息
申請號: 201310478890.2 申請日: 2013-10-14
公開(公告)號: CN103530369A 公開(公告)日: 2014-01-22
發明(設計)人: 郭美思;何志平;吳楠 申請(專利權)人: 浪潮(北京)電子信息產業有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京安信方達知識產權代理有限公司 11262 代理人: 王丹;栗若木
地址: 100085 北京市海*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 方法 系統
【說明書】:

技術領域

發明涉及分布式網絡技術,尤其涉及一種去重方法及系統。

背景技術

隨著互聯網技術的不斷發展與網絡信息量的不斷劇增,用戶能夠從海量的信息中快速高效的搜索有價值的信息對于互聯網的發展至關重要。因此對于同一資源定位符(URL,Uniform?Resource?Locator)數據的去重尤為重要。例如,對于搜索信息來說,網絡信息采集是其重要組成部分,URL去重直接影響網絡信息采集的效率。因此,URL的去重方案設計與實現是非常重要的。

目前,對于去重設計方案主要有基于哈希計算算法的去重方案和基于BloomFilter算法的去重方案等。其中,

哈希計算算法去重方案的主要思路大致包括:對每個URL進行哈希計算,得到唯一的校驗和來標識URL;通過查找該校驗和是否出現在已采集的URL庫中,如果出現,則丟棄;如果未出現,查找是否出現在待采集的URL庫中,出現則丟棄,否則將該URL保存在待采集的URL庫中。但是哈希算法的計算復雜度高,效率差。

BloomFilter算法的去重方案的主要思路大致包括:將同一個URL通過多個不同的哈希計算函數映射到同一個位數組中的不同位上,根據其位數組中多個不同位的狀態識別該URL的采集狀態(該URL是否已采集)。BloomFilter算法的優點是,只需要在內存中保存位數組這樣一個數據結構,就能夠判別URL的采集狀態,不需要保存具體的URL,占用的存儲空間小,同時查找計算的速度快。但是,BloomFilter算法在判斷一個元素是否屬于某個集合時,有可能會把不屬于這個集合的元素誤認為屬于這個集合。因此BloomFilter算法的缺點是不能做到精確無誤,存在一定的誤差。

發明內容

為了解決上述技術問題,本發明提供了一種去重方法及系統,能夠在Hadoop集群中并發的訪問、處理數據,保證去重的高效性和準確性。

為了達到本發明的目的,本發明提供了一種去重方法,包括:獲取存儲于Hadoop集群系統中的任意一個或多個節點中,或者分布于任意網絡資源中的URL數據;

按照所述Hadoop集群系統的映射框架中所指定的輸入類格式,對獲得的URL數據進行映射處理;

按照所述Hadoop集群系統的歸約框架中指定的類格式,對所述映射處理的結果進行歸約處理;

其中,所述映射處理在所述Hadoop集群系統的一個或多個節點中執行,所述歸約處理在所述Hadoop集群系統的一個或多個節點中執行,所述映射處理和所述歸約處理分別在所述Hadoop集群系統的一個或多個節點中并發、或順序執行。

進一步地,所述映射處理所在節點與所述歸約處理所在節點相同;或者,所述映射處理所在節點與所述歸約處理所在節點不同。

進一步地,所述映射處理包括:判斷所述獲得的URL數據是否已被采集,如果已被采集,則寫入中間數據文件中;否則,根據所述獲得的URL數據所對應的原始網頁中的鏈接,計算采集權值,并將所述獲得的URL數據標記為已采集狀態。

進一步地,所述歸約處理包括:將所述映射處理的結果放在同一個歸約任務中批量執行。

進一步地,所述執行映射處理的節點的數量為預先設置。

進一步地,所述執行歸約處理的節點的數量為預先設置。

本發明提供了一種去重系統,包括:

數據獲取設備,用于獲取存儲于Hadoop集群系統中的任意一個或多個節點中,或者分布于任意網絡資源中的URL數據;

映射處理設備,用于按照所述Hadoop集群系統的映射框架中指定的輸入類格式,對獲得的URL數據進行映射處理;

歸約處理設備,用于按照所述Hadoop集群系統的歸約框架中指定的類格式,對所述映射處理的結果進行歸約處理,歸約處理的結果為對URL去重的結果;

其中,所述映射處理在所述Hadoop集群系統的一個或多個節點中執行,所述歸約處理在所述Hadoop集群系統的一個或多個節點中執行,所述映射處理和所述歸約處理分別在所述Hadoop集群系統的一個或多個節點中并發、或順序執行。

進一步地,所述映射處理和所述歸約處理在所述Hadoop集群系統的相同的節點中執行或、所述映射處理和所述歸約處理在所述Hadoop集群系統的不同的節點中執行。

進一步地,所述映射處理設備具體用于:判斷獲得的URL數據是否已被采集,如果已被采集,則寫入中間數據文件中;否則根據所述URL數據所對應的原始網頁中的鏈接,計算采集權值,并將所述URL數據標記為已采集狀態。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮(北京)電子信息產業有限公司,未經浪潮(北京)電子信息產業有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201310478890.2/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖、流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 精品国产一二区| 国产日韩欧美一区二区在线播放| 免费毛片a| 国产亚洲久久| 久久天天躁夜夜躁狠狠躁2022| 国产视频1区2区| 狠狠插狠狠插| av午夜电影| 欧美激情在线一区二区三区| 国产一区二区三区网站| 中文字幕a一二三在线| 夜夜躁日日躁狠狠躁| 久久久精品欧美一区二区免费| 国产精品欧美久久| 欧美乱偷一区二区三区在线 | 久久夜色精品国产亚洲| 欧美极品少妇xx高潮| 国产精品96久久久久久又黄又硬| 亚洲女人av久久天堂| 亚洲精品少妇一区二区 | 久久一级精品| 国产精品9区| 少妇厨房与子伦在线观看| 国产免费第一区| 欧美精品一区免费| 国产在线卡一卡二| 国产97在线播放| 99国产精品免费| 精品国产乱码一区二区三区在线| 亚洲国产精品精品| 99国产精品欧美久久久久的广告| 日韩欧美国产高清91| 国产91综合一区在线观看| 久久精品国产亚洲7777| 午夜一级电影| 午夜一区二区视频| 九色国产精品入口| 欧美精品一区二区性色| 国内揄拍国产精品| 国产69精品福利视频| 91社区国产高清| 国产一区二区电影在线观看| 国产一区二区免费电影| 欧美精品第一区| 91午夜在线观看| 国产亚洲精品久久久久久网站| 国产一级一区二区| 国产精品一区一区三区| 最新日韩一区| 国产一区二区三区精品在线| 68精品国产免费久久久久久婷婷| 狠狠色噜噜狠狠狠狠黑人| 97精品国产aⅴ7777| 国产天堂第一区| 精品国产一区二区三区高潮视| 欧美综合国产精品久久丁香| 亚洲乱强伦| 国产精欧美一区二区三区久久| 亚洲三区在线| 国产精品日韩一区二区三区| 在线播放国产一区| 亚洲国产精品肉丝袜久久| 久99久视频| 午夜影院伦理片| 午夜看片网| 国产精品人人爽人人做av片| 亚洲欧美一卡二卡| 精品久久综合1区2区3区激情| 日本一区二区三区在线视频| 99久久免费精品视频| 日韩美一区二区三区| 欧美日韩中文国产一区发布| 中文字幕在线一二三区| 男女视频一区二区三区| 亚洲高清久久久| 中文文精品字幕一区二区| 欧美日韩一区不卡| 午夜欧美a级理论片915影院| 91精品一区二区在线观看| 狠狠色狠狠综合久久| 久久国产精品久久久久久电车| 国产精品高潮呻吟视频| 国产欧美一区二区三区免费 | 91波多野结衣| 亚洲精品久久久久999中文字幕| 精品久久一区| 97人人模人人爽视频一区二区| 视频一区欧美| 亚洲欧洲日韩| 99精品小视频| 精品国产仑片一区二区三区| 午夜国内精品a一区二区桃色| 亚洲一卡二卡在线| 午夜电影一区| 国产一区二区视频免费在线观看 | 久久艹亚洲| 国产精品视频二区三区| 日韩av在线电影网| 91精品色| 国产精品无码专区在线观看 | 日韩欧美视频一区二区| 国产精品suv一区二区6| 色噜噜狠狠狠狠色综合久| 91亚洲国产在人线播放午夜| 久久激情影院| 激情欧美一区二区三区| 理论片午午伦夜理片在线播放 | 美女直播一区二区三区| 欧美中文字幕一区二区| 国产老妇av| 欧美日韩久久一区二区| 精品国产一区二区三区久久久久久 | 国产精品1区二区| 色妞妞www精品视频| 国产乱人伦精品一区二区| 国产日产精品一区二区| 久久精品国产久精国产| 国产精品亚洲а∨天堂123bt| 国产一卡二卡在线播放| 国产视频在线一区二区| 精品91av| 欧美日韩精品不卡一区二区三区| 色乱码一区二区三在线看| 欧美日本三级少妇三级久久| 欧美日韩一区二区三区免费| 国产大学生呻吟对白精彩在线| 欧美乱码精品一区二区| www.久久精品视频| 国产精品久久久区三区天天噜| 亚洲精品久久久久久久久久久久久久| 亚洲欧美一区二| 亚洲精品97久久久babes| 免费**毛片| 91精品国产综合久久福利软件| 6080日韩午夜伦伦午夜伦| 欧美日韩不卡视频| 91精品视频在线观看免费| 国产精品天堂| 销魂美女一区二区| 久久九精品| 国产一区日韩精品| 国产中文字幕91| 99久久国产综合精品麻豆| 久久一级精品视频| 国产91在| 国产精品久久久不卡| 浪潮av色| 午夜伦理在线观看| 国产色午夜婷婷一区二区三区 | 少妇高潮在线观看| 国产偷亚洲偷欧美偷精品| 狠狠色综合久久婷婷色天使| 国产在线不卡一| 91久久精品久久国产性色也91| 国产一级片子| **毛片免费| 香蕉av一区二区三区| 国产精品久久久久久久久久久久久久久久久久 | 欧美日韩一区二区三区四区五区六区| 国产精品一区二区不卡| 99久久婷婷国产综合精品草原| 午夜欧美a级理论片915影院| 蜜臀久久99精品久久久| 亚洲精品www久久久| 日本免费电影一区二区三区| 日韩一级片免费视频| 久久天天躁狠狠躁亚洲综合公司| 91亚洲欧美日韩精品久久奇米色| 中文字幕在线视频一区二区| 国产高清不卡一区| 538国产精品一区二区免费视频| 夜夜躁日日躁狠狠躁| 国产伦理精品一区二区三区观看体验| 99精品欧美一区二区三区美图| 亚洲天堂国产精品| 国产69精品99久久久久久宅男| 激情久久一区二区三区| 夜夜精品视频一区二区| 热久久国产| 热久久一区二区| 国产精品精品视频一区二区三区| 国产午夜三级一二三区| 午夜激情在线| 国产一区免费播放| 国偷自产中文字幕亚洲手机在线| 国产精品久久免费视频| 91精品久| 国产视频二区| 午夜影院一级| 国内精品国产三级国产99| 国产一区日韩精品| 欧美一区视频观看| 午夜av网址| 国产999精品视频| 国产特级淫片免费看| 中文字幕欧美另类精品亚洲| 国产91久| 国产一区二区极品| 国产精品无码永久免费888 | 久久精品国产99| 久久精品一区二区三区电影| 欧美精品五区| 久久人做人爽一区二区三区小说| 久久精品国产精品亚洲红杏| 欧美日韩一区二区三区不卡| 国产1区2| 香蕉av一区二区三区| 欧美一级免费在线视频| 国产欧美日韩一级| 国产在线视频二区| 日本久久不卡| 日韩一区二区三区福利视频| 老太脱裤子让老头玩xxxxx| 国产麻豆精品久久| 国产日韩一区二区在线| 国产精彩视频一区二区| 国产精品久久久久久久久久不蜜月| 国产理论片午午午伦夜理片2021| 国产日韩一区二区三免费| 久久青草欧美一区二区三区| 538国产精品一区二区免费视频| 国产大学生呻吟对白精彩在线| 亚洲乱码一区二区三区三上悠亚| 欧美一级不卡| 欧美日韩一区二区三区69堂| 亚洲神马久久| 久久狠狠高潮亚洲精品| 国产精品久久久久久久新郎| 国产伦精品一区二区三| 国产精品自产拍在线观看桃花| 欧美午夜理伦三级在线观看偷窥| 91久久一区二区| 国产一区二区午夜| 久久精品国产一区二区三区| 欧美在线视频一区二区三区| 欧美一区视频观看| 久久久综合亚洲91久久98| 国产一区二区免费在线| 玖玖国产精品视频| 午夜av电影网| 欧美二区精品| 国产性生交xxxxx免费| 久久九九亚洲| 国产一区日韩一区| 亚洲va国产| 欧美日韩国产免费观看|