[發明專利]爬蟲處理方法、裝置、服務器及計算機可讀存儲介質在審
| 申請號: | 201910965767.0 | 申請日: | 2019-10-12 |
| 公開(公告)號: | CN110851681A | 公開(公告)日: | 2020-02-28 |
| 發明(設計)人: | 杜曉宇 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;熊永強 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 爬蟲 處理 方法 裝置 服務器 計算機 可讀 存儲 介質 | ||
本申請實施例提供了一種爬蟲處理方法、裝置、服務器及計算機可讀存儲介質,該方法包括:接收終端發送的對指定抓取任務的任務啟動指令,該任務啟動指令包括該指定抓取任務的第一配置記錄、第二配置記錄、第三配置記錄;根據第一配置記錄包括的種子信息和該第二配置記錄包括的針對該指示至少一類待抓取頁面中每類待抓取頁面的爬蟲配置信息執行爬蟲操作,得到該每類待抓取頁面對應的爬蟲數據集合;根據第三配置記錄包括的每類待抓取頁面對應的解析規則,從該每類待抓取頁面對應的爬蟲數據集合包括的各頁面中解析出目標數據。采用本申請,可以使得爬蟲過程更具針對性,并可以提高可擴展性,提升爬蟲效率。
技術領域
本申請涉及計算機技術領域,尤其涉及一種爬蟲處理方法、裝置、服務器及計算機可讀存儲介質。
背景技術
隨著網絡技術的發展,網絡當中包含有越來越多的數據,如果想要獲取數據,通常可以采用爬蟲技術從網頁或數據庫當中獲取數據。
爬蟲作為一種獲取網絡數據的重要手段,其獲取網絡數據的難易程度和數據源網站密切相關。傳統的抓取系統需要針對不同的數據源編寫特定代碼以進行爬蟲。在爬蟲過程中,一般會基于提供的一個鏈接地址面向的海量的數據執行抓取任務。然而,由于該方式缺乏針對性、可擴展性較低,降低了爬蟲效率。
發明內容
本申請實施例提供了一種爬蟲處理方法、裝置、服務器及計算機可讀存儲介質,可以使得爬蟲過程更具針對性,并可以提高可擴展性,提升爬蟲效率。
第一方面,本申請實施例提供了一種爬蟲處理方法,包括:
接收終端發送的對指定抓取任務的任務啟動指令,所述任務啟動指令包括所述指定抓取任務的第一配置記錄、第二配置記錄、第三配置記錄,所述第一配置記錄包括種子信息,所述第二配置記錄包括針對至少一類待抓取頁面中每類待抓取頁面設置的爬蟲配置信息,所述第三配置記錄包括所述每類待抓取頁面對應的解析規則;
根據所述種子信息和所述每類待抓取頁面的爬蟲配置信息執行爬蟲操作,得到所述每類待抓取頁面對應的爬蟲數據集合,每類待抓取頁面對應的所述爬蟲數據集合包括屬于該類待抓取頁面的頁面;
根據所述每類待抓取頁面對應的解析規則,從所述每類待抓取頁面對應的爬蟲數據集合包括的各頁面中解析出目標數據。
可選地,所述根據所述種子信息和所述每類待抓取頁面的爬蟲配置信息執行爬蟲操作,得到所述每類待抓取頁面對應的爬蟲數據集合,包括:
將所述種子信息包括的至少一個種子鏈接地址寫入待抓取鏈接地址隊列;
從待抓取鏈接隊列中取出寫入時間最早的第一種子鏈接地址,訪問并下載所述第一種子鏈接地址對應的頁面,并將第一種子鏈接地址寫入已抓取鏈接地址隊列;
基于每類待抓取頁面對應的爬蟲配置信息包括的匹配規則,從所述第一種子鏈接地址對應的頁面中,匹配出屬于該類待抓取頁面的頁面,并提取屬于該類待抓取頁面的頁面中的鏈接地址,將提取的鏈接地址寫入所述待抓取鏈接地址隊列;
從所述待抓取鏈接地址隊列中取出寫入時間最早的目標鏈接地址,訪問并下載所述目標鏈接地址對應的頁面,并將所述目標鏈接地址寫入已抓取鏈接地址隊列;
基于每類待抓取頁面對應的爬蟲配置信息包括的匹配規則,從所述目標鏈接地址對應的頁面中,匹配出屬于該類待抓取頁面的頁面,并提取屬于該類待抓取頁面的頁面中的鏈接地址,將提取的鏈接地址寫入所述待抓取鏈接地址隊列,重復執行所述從所述待抓取鏈接地址隊列中取出寫入時間最早的目標地址的步驟,直到滿足預設條件時停止爬蟲操作。
可選地,所述提取屬于該類待抓取頁面的頁面中的鏈接地址,將提取的鏈接地址寫入所述待抓取鏈接地址隊列,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910965767.0/2.html,轉載請聲明來源鉆瓜專利網。





