[發明專利]一種單機爬蟲抓取方法及系統有效
| 申請號: | 201410458191.6 | 申請日: | 2014-09-10 |
| 公開(公告)號: | CN104252530B | 公開(公告)日: | 2017-09-15 |
| 發明(設計)人: | 廖耀華 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京邦信陽專利商標代理有限公司11012 | 代理人: | 金璽 |
| 地址: | 100080 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 單機 爬蟲 抓取 方法 系統 | ||
技術領域
本發明涉及網絡爬蟲相關技術,特別是一種單機爬蟲抓取方法及系統。
背景技術
互聯網擁有海量的數據和信息,如何把這些數據和信息轉換為自己想要的東西,進而進行分析和處理是一件比較棘手的事情。網絡爬蟲的出現解決了所有的這些問題。
目前多數的爬蟲裝置都只是簡單的實現了爬取網頁的功能,但是對于重復爬取、陷入死循環陷阱、制定防爬策略(延長抓取時間)等方面都沒有好的體現。另外,目前的單機網絡兼容性不好,不能解決同時抓取多種網站的抓取需求。
發明內容
基于此,有必要針對現有技術的現有的單機網絡爬蟲抓取機制工作效率底,抓取時間短,而且不能同時抓取多種類型的網站的技術問題,提供一種單機爬蟲抓取方法及系統。
一種單機爬蟲抓取方法,包括:
獲取至少一個包括URL、網站編號和類型的種子,將所述種子的URL作為當前URL,將所述種子的網站編號作為當前網站編號,將所述種子的類型作為當前類型;
獲取至少一個策略,根據所述策略確定至少一個爬蟲抓取參數;
根據所述當前類型獲取與所述當前類型對應的規則;
按照所述爬蟲抓取參數從所述當前URL抓取網頁數據,根據所述規則對所述網頁數據進行解析獲得解析數據。
一種單機爬蟲抓取系統,包括:
種子接收模塊,用于獲取至少一個包括URL、網站編號和類型的種子,將所述種子的URL作為當前URL,將所述種子的網站編號作為當前網站編號,將所述種子的類型作為當前類型;
策略模塊,用于獲取至少一個策略,根據所述策略確定至少一個爬蟲抓取參數;
規則模塊,用于根據所述當前類型獲取與所述當前類型對應的規則;
解析模塊,用于按照所述爬蟲抓取參數從所述當前URL抓取網頁數據,根據所述規則對所述網頁數據進行解析獲得解析數據。
本發明通過策略確定爬蟲抓取參數,以及時克服抓取過程中出現的問題,從而提高工作效率,延長抓取時間,以及適應多種類型的網站。
附圖說明
圖1為本發明一種單機爬蟲抓取方法的工作流程圖;
圖2為本發明一種單機爬蟲抓取系統的結構模塊圖;
圖3為本發明一種單機爬蟲抓取系統的最佳實施例的結構模塊圖。
具體實施方式
下面結合附圖和具體實施例對本發明做進一步詳細的說明。
如圖1所示為本發明一種單機爬蟲抓取方法的工作流程圖,包括:
步驟11,獲取至少一個包括URL、網站編號和類型的種子,將所述種子的URL作為當前URL,將所述種子的網站編號作為當前網站編號,將所述種子的類型作為當前類型;
步驟12,獲取至少一個策略,根據所述策略確定至少一個爬蟲抓取參數;
步驟13,根據所述當前類型獲取與所述當前類型對應的規則;
步驟14,按照所述爬蟲抓取參數從所述當前URL抓取網頁數據,根據所述規則對所述網頁數據進行解析獲得解析數據。
在步驟12中的策略,用于確定爬蟲抓取參數,通過不同的策略,確定不同的爬蟲抓取參數,從而在步驟14中,采用經過步驟12所確定的爬蟲抓取參數進行網頁數據抓取。由于爬蟲抓取參數是由步驟12的策略所確定的,因此,可以通過設定不同的策略,以滿足不同的抓取需求,從而提高工作效率,延長抓取時間,以及適應多種類型的網站。
在其中一個實施例中,所述步驟14中,如果在抓取所述網頁數據或者對所述網頁數據進行分析中出現異常情況,則保存所述異常情況。
通過監測在抓取所述網頁數據或者對所述網頁數據進行分析中出現的異常情況,可以及時的將異常情況反饋給用戶,防止資源浪費。
在其中一個實施例中,所述策略包括:種子陷入死循環處理策略、瀏覽器標志切換策略、cookie動態更新策略和/或代理IP切換策略。
本實施例的策略中,種子陷入死循環處理策略用來防止重復爬取、陷入死循環陷阱,而瀏覽器標志切換策略、cookie動態更新策略和/或代理IP切換策略則可以延長抓取時間。
在其中一個實施例中:
所述種子陷入死循環處理策略具體為:所述爬蟲抓取參數為允許或者拒絕從所述當前URL抓取網頁數據,如果所述異常情況為當前URL陷入死循環,則所述爬蟲抓取參數設置為拒絕從所述當前URL抓取網頁數據,否則所述爬蟲抓取參數設置為允許從所述當前URL抓取網頁數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410458191.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種泥漿泵直驅交流變頻異步電動機
- 下一篇:一種翻轉機構





