[發明專利]一種用于網絡爬蟲系統的網頁內容抓取方法及裝置有效
| 申請號: | 201210140751.4 | 申請日: | 2012-05-08 |
| 公開(公告)號: | CN103389983A | 公開(公告)日: | 2013-11-13 |
| 發明(設計)人: | 孫杰;蔡同利 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 許志勇 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 網絡 爬蟲 系統 網頁 內容 抓取 方法 裝置 | ||
技術領域
本發明涉及計算機、互聯網技術領域,尤其涉及一種用于網絡爬蟲系統的網頁內容抓取方法及裝置。
背景技術
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人等),是一種按照一定的規則自動的抓取互聯網上的網頁的程序或者腳本,它們的行為被稱為網頁抓取或蜘蛛爬行。
由于網絡上的HTML文檔使用超鏈接連接了起來,就像組成了一張網,因此,網絡爬蟲可以順著這張網爬行,每到一個網頁就利用抓取程序將這個網頁抓下來,并將其中的超鏈接抽取出來,作為進一步爬行的線索。
一般來說,網絡爬蟲都是從一組要訪問的URL(統一資源定位符,或簡稱網址)鏈接開始,可以稱這些URL為種子。爬蟲訪問這些鏈接,并辨認出這些頁面中的所有超鏈接,然后將這些超鏈接添加到一個URL列表中,再按照一定的策略反復訪問這些列表中的URL鏈接。
然而,現有的網絡爬蟲系統經常會遇到的一個問題是,對于一些比較大的網站,無法在較短的時間內將其內容全部抓取完,這是因為網絡爬蟲在爬取網頁的過程中,需要遵守一定的禮儀規范,不能對同一個網站進行過于頻繁的抓取,否則會給對方網站的服務器造成過大的壓力,嚴重時可能會導致該網站不得不屏蔽該網絡爬蟲,禁止其抓取行為。
抓取的禮儀規范在業界是有標準的,具體體現在robots.txt中,如果對方網站的robots.txt中包含crawl?delay:value這一項,則爬蟲對網站連續兩次訪問請求的時間間隔必須大于value的值。如果對方網站的robots.txt中不包含這一項或者根本就沒有robots.txt,那么作為網絡爬蟲也應該間隔一定的時間發起下一次請求。
但是有一些網站的規模非常大,頁面數量是億甚至是十億的量級,每天新增的頁面數也非常大,如果嚴格遵守抓取禮儀的話,會使得這些大網站在一定的時間內無法被抓取完。
為了解決這個問題,現有的網絡爬蟲的抓取策略都是把規模很大的網站連續兩次抓取的時間間隔設置到ms級別,并且在此基礎上同時保持很多個連接,但是這不僅給對方網站的帶來了很大的壓力,而且也存在被對方網站封鎖的危險。
發明內容
本申請所要解決的技術問題在于提供一種用于網絡爬蟲系統的網頁內容抓取方法及裝置,以克服現有技術中無法在遵守抓取禮儀規范的前提下短時間內將大型網站的內容全部抓取完的問題。
為解決上述技術問題,本申請提供一種用于網絡爬蟲系統的網頁內容抓取方法,首先構建一IP地址數據庫,記錄有預設網站的域名及與該域名對應的多個IP地址;然后通過查詢所述IP地址數據庫,將所述網絡爬蟲系統欲執行抓取的目標網頁地址URL中的域名替換為一個與該域名對應的IP地址后執行抓取。
本發明進而還提供一種用于網絡爬蟲系統的網頁內容抓取裝置,包括:
數據庫模塊,用于通過構建一IP地址數據庫,記錄預設網站的域名及與該域名對應的多個IP地址;
替換模塊,用于通過查詢所述IP地址數據庫,將所述網絡爬蟲系統欲執行抓取的目標網頁地址URL中的域名替換為一個與該域名對應的IP地址后執行抓取。
本申請的實施例充分利用了大網站的布局特點,通過域名系統DNS查詢工具,獲取到各個大網站分布在全國各地的CDN(內容分發網絡)結點的IP地址,或者其提供輪詢服務的多個IP地址,然后把這些IP地址對應的服務器作為獨立的服務器進行抓取,這樣可以同時分別對大網站的內容進行抓取,而又不會對某一個單獨的服務器造成很大的壓力,從而提高了對大網站的抓取效率。
附圖說明
為了更清楚地說明本申請實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為根據本申請實施例所述的URL規則示意圖。
圖2為根據本申請實施例所述的用于網絡爬蟲系統的網頁內容抓取方法流程圖。
圖3為根據本申請另一實施例所述的用于網絡爬蟲系統的網頁內容抓取方法流程圖。
圖4為根據本申請實施例所述的用于網絡爬蟲系統的網頁內容抓取裝置示意圖。
具體實施方式
下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210140751.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:超聲風速溫度儀局域網絡系統及測量方法
- 下一篇:一種家居接口模塊





