[發明專利]云環境下分布式網絡信息采集方法有效
| 申請號: | 201510020854.0 | 申請日: | 2015-01-15 |
| 公開(公告)號: | CN104699757B | 公開(公告)日: | 2018-03-13 |
| 發明(設計)人: | 張登銀;于建坤 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 江蘇愛信律師事務所32241 | 代理人: | 唐小紅 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 環境 分布式 網絡 信息 采集 方法 | ||
技術領域
本發明屬于云計算與大數據領域,涉及在云環境下分布式網絡爬蟲系統的模型的設計。
背景技術
互聯網最基礎的功能即提供信息,目前,互聯網上的信息已是海量,搜索引擎則是網民在汪洋中搜尋信息的工具,是互聯網上不可或缺的工具和基礎應用之一。根據《CNNIC:2014年第33次中國互聯網絡發展狀況統計報告》顯示[1],截止2013年12月,我國搜索引擎用戶規模達到4.90億,與2012年底相比增長3856萬人,增長率為8.5%,使用率為79.3%。位列網絡應用中即時通信、網絡新聞之后的第三位。在美國,搜索引擎使用率已經達到了91%,在中國這樣一個網民快速增長和以年輕網民主導的國家,搜索引擎用戶會繼續增長,對于擁有核心技術和海量用戶的搜索引擎行業,發展前景令人看好。
云計算的概念由IBM、Google等IT服務企業提出后一直在不斷推進與深入,云計算的基本特征是資源共享、按需分配、彈性調度和服務可擴展,云計算所提供的強大計算能力和存儲能力能夠支撐爬蟲系統功能的實現。Hadoop是一個由Apache基金會所開發的分布式系統基礎架構,它實現了一個分布式文件系統,簡稱HDFS,為海量的數據提供了存儲。它還提供了一種基于M/R計算模型的開發框架,通過實現這種框架,可以快速地開發出高效、可靠的分布式計算程序。
傳統的分布式網絡爬蟲系統從功能實現的方式上可以分為無中心調度節點的獨立式架構、擁有一個調度中心的動態分配架構以及將整個網絡分成不同的部分分別爬行的靜態分配架構。無中心調度節點的獨立式架構中各個節點之間缺乏交流,造成重復爬行大量的冗余頁面。靜態分配架構中,URL的分配方式是按照爬行頁面的地域特征,指定爬行服務器爬行的IP范圍,沒有考慮到不同地域上頁面的數量,造成不同的爬行服務器上任務分配不均。擁有一個調度中心的動態分配架構可以使URL平均地分配到頁面抓取服務器上,但是沒有考慮到不同服務器上性能的差別。
面對海量的互聯網信息,分布式網絡爬蟲需要做到快速、全面地對網絡信息進行抓取,同時盡可能地達到負載均衡,降低頁面重復率。本文提出一種云環境下的分布式網絡爬蟲系統的設計模型。
發明內容
技術問題:本發明針對傳統網絡爬蟲面對互聯網海量頁面時,頁面抓取速度慢、分布式集群負載不均衡的問題,采用頁面抓取與頁面處理相分離的系統設計方法,提高頁面采集的速度,通過對頁面采集服務器頁面采集時間的橫向和縱向的比較,動態地為頁面采集服務器分配抓取任務,盡可能地使頁面采集服務器達到負載均衡的狀態。
技術方案:本發明的云環境下分布式網絡信息采集方法,含如下步驟:
1)系統模型的組成:頁面信息采集子系統、頁面信息數據處理子系統;
2)頁面信息采集系統創建服務監聽端口,接收中心節點分配的URL集合,當接收到中心節點分配的URL集合后,觸發步驟3;
3)頁面信息采集系統采用異步的方式,對URL集合中的每個頁面進行抓取,抓取完成后,將包含所有頁面信息的結果返回給中心節點;
4)中心節點將接收到的抓取的結果放到待處理頁面集合中,交由云計算平臺對頁面信息進行處理,并且將頁面信息采集服務器加入空閑的服務器列表;
5)云計算平臺提取出頁面中所有的超鏈接,并且對超鏈接進行過濾,將過濾出來的URL放入到待分配的URL集合中;
6)中心節點根據未分配的服務器列表,根據URL分配的策略,將待分配的URL分配給各個頁面信息采集服務器,重復步驟2,直到待分配URL列表為空;
本發明提出了云環境下分布式網絡信息采集方法,通過采用本發明提出的方法,可以在面對互聯網海量的數據時,以最快的速度、最小的頁面重復率抓取網頁信息,并且保證集群主機的負載均衡。
附圖說明
圖1基于本發明的頁面信息抓取流程圖。
圖2是本發明的分布式網絡爬蟲架構圖。
圖3是本發明的頁面采集系統流程圖。
圖4是本發明的URL分配流程圖。
具體實施方式
以下結合附圖對本發明的原理和特征進行描述,所舉實例只用于解釋本發明,并非用于限定本發明的范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510020854.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種最小函數依賴的增量計算方法
- 下一篇:一種物聯網終端設備的語義化方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





