[發明專利]一種去重方法及系統在審
| 申請號: | 201310478890.2 | 申請日: | 2013-10-14 |
| 公開(公告)號: | CN103530369A | 公開(公告)日: | 2014-01-22 |
| 發明(設計)人: | 郭美思;何志平;吳楠 | 申請(專利權)人: | 浪潮(北京)電子信息產業有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 王丹;栗若木 |
| 地址: | 100085 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 方法 系統 | ||
技術領域
本發明涉及分布式網絡技術,尤其涉及一種去重方法及系統。
背景技術
隨著互聯網技術的不斷發展與網絡信息量的不斷劇增,用戶能夠從海量的信息中快速高效的搜索有價值的信息對于互聯網的發展至關重要。因此對于同一資源定位符(URL,Uniform?Resource?Locator)數據的去重尤為重要。例如,對于搜索信息來說,網絡信息采集是其重要組成部分,URL去重直接影響網絡信息采集的效率。因此,URL的去重方案設計與實現是非常重要的。
目前,對于去重設計方案主要有基于哈希計算算法的去重方案和基于BloomFilter算法的去重方案等。其中,
哈希計算算法去重方案的主要思路大致包括:對每個URL進行哈希計算,得到唯一的校驗和來標識URL;通過查找該校驗和是否出現在已采集的URL庫中,如果出現,則丟棄;如果未出現,查找是否出現在待采集的URL庫中,出現則丟棄,否則將該URL保存在待采集的URL庫中。但是哈希算法的計算復雜度高,效率差。
BloomFilter算法的去重方案的主要思路大致包括:將同一個URL通過多個不同的哈希計算函數映射到同一個位數組中的不同位上,根據其位數組中多個不同位的狀態識別該URL的采集狀態(該URL是否已采集)。BloomFilter算法的優點是,只需要在內存中保存位數組這樣一個數據結構,就能夠判別URL的采集狀態,不需要保存具體的URL,占用的存儲空間小,同時查找計算的速度快。但是,BloomFilter算法在判斷一個元素是否屬于某個集合時,有可能會把不屬于這個集合的元素誤認為屬于這個集合。因此BloomFilter算法的缺點是不能做到精確無誤,存在一定的誤差。
發明內容
為了解決上述技術問題,本發明提供了一種去重方法及系統,能夠在Hadoop集群中并發的訪問、處理數據,保證去重的高效性和準確性。
為了達到本發明的目的,本發明提供了一種去重方法,包括:獲取存儲于Hadoop集群系統中的任意一個或多個節點中,或者分布于任意網絡資源中的URL數據;
按照所述Hadoop集群系統的映射框架中所指定的輸入類格式,對獲得的URL數據進行映射處理;
按照所述Hadoop集群系統的歸約框架中指定的類格式,對所述映射處理的結果進行歸約處理;
其中,所述映射處理在所述Hadoop集群系統的一個或多個節點中執行,所述歸約處理在所述Hadoop集群系統的一個或多個節點中執行,所述映射處理和所述歸約處理分別在所述Hadoop集群系統的一個或多個節點中并發、或順序執行。
進一步地,所述映射處理所在節點與所述歸約處理所在節點相同;或者,所述映射處理所在節點與所述歸約處理所在節點不同。
進一步地,所述映射處理包括:判斷所述獲得的URL數據是否已被采集,如果已被采集,則寫入中間數據文件中;否則,根據所述獲得的URL數據所對應的原始網頁中的鏈接,計算采集權值,并將所述獲得的URL數據標記為已采集狀態。
進一步地,所述歸約處理包括:將所述映射處理的結果放在同一個歸約任務中批量執行。
進一步地,所述執行映射處理的節點的數量為預先設置。
進一步地,所述執行歸約處理的節點的數量為預先設置。
本發明提供了一種去重系統,包括:
數據獲取設備,用于獲取存儲于Hadoop集群系統中的任意一個或多個節點中,或者分布于任意網絡資源中的URL數據;
映射處理設備,用于按照所述Hadoop集群系統的映射框架中指定的輸入類格式,對獲得的URL數據進行映射處理;
歸約處理設備,用于按照所述Hadoop集群系統的歸約框架中指定的類格式,對所述映射處理的結果進行歸約處理,歸約處理的結果為對URL去重的結果;
其中,所述映射處理在所述Hadoop集群系統的一個或多個節點中執行,所述歸約處理在所述Hadoop集群系統的一個或多個節點中執行,所述映射處理和所述歸約處理分別在所述Hadoop集群系統的一個或多個節點中并發、或順序執行。
進一步地,所述映射處理和所述歸約處理在所述Hadoop集群系統的相同的節點中執行或、所述映射處理和所述歸約處理在所述Hadoop集群系統的不同的節點中執行。
進一步地,所述映射處理設備具體用于:判斷獲得的URL數據是否已被采集,如果已被采集,則寫入中間數據文件中;否則根據所述URL數據所對應的原始網頁中的鏈接,計算采集權值,并將所述URL數據標記為已采集狀態。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮(北京)電子信息產業有限公司,未經浪潮(北京)電子信息產業有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310478890.2/2.html,轉載請聲明來源鉆瓜專利網。





