[發明專利]一種可定制的網絡爬蟲方法及系統有效
| 申請號: | 201910292891.5 | 申請日: | 2019-04-12 |
| 公開(公告)號: | CN110020062B | 公開(公告)日: | 2021-09-24 |
| 發明(設計)人: | 張熙;段馨凝;吳旭;方濱興 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 丁蕓;馬敬 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 定制 網絡 爬蟲 方法 系統 | ||
1.一種可定制的網絡爬蟲方法,其特征在于,包括:
通過人工輸入配置界面獲取單個待生成爬蟲任務的配置項;
利用所述配置項中的第一爬蟲名稱,查找為所述第一爬蟲名稱預先配置的網站靜態配置文件,作為目標靜態配置文件;
通過所述目標靜態配置文件中包含的第一網站運行配置文件名稱,查找為所述第一網站運行配置文件名稱預先配置的網站運行配置文件,作為目標運行配置文件;
基于所述目標靜態配置文件、所述目標運行配置文件及所述配置項,生成包含所述配置項的爬蟲任務;
獲取所述目標靜態配置文件中包含的爬蟲入口鏈接;
執行用于對所述爬蟲入口鏈接進行目標數據抓取的爬蟲任務;
所述獲取所述目標靜態配置文件中包含的爬蟲入口鏈接包括:確定所述目標靜態配置文件的配置項名稱中是否存在額外的表單信息,如果存在,按照所述額外的表單信息登錄驗證通過后,獲取所述目標靜態配置文件中包含的爬蟲入口鏈接;如果不存在,獲取所述目標靜態配置文件中包含的爬蟲入口鏈接;所述額外的表單信息包括:登錄名和密碼。
2.如權利要求1所述的方法,其特征在于,
所述目標靜態配置文件的配置項名稱包括:包含第一爬蟲名稱的定義待爬網站爬蟲的爬蟲名稱、包含第一網站運行配置文件名稱的網站運行配置文件名稱、爬蟲入口鏈接及鏈接篩選規則中的一項或多項;
所述目標運行配置文件包括:多個網站運行配置文件,所述目標運行配置文件的配置項名稱用于定義所述待生成爬蟲任務運行所需的配置參數,所述目標運行配置文件的配置項名稱包括:最大并行請求個數、下載延遲、超時時間、失敗重試次數及間隔、最大爬取深度、重復請求過濾算法、日志級別、文件存儲位置及最大并行處理抓取項個數中的一項或多項;
所述配置項包括所述待生成爬蟲任務的第一爬蟲名稱、待生成爬蟲任務運行模式、待生成爬蟲任務運行時間間隔及待生成爬蟲任務起止時間中的一項或多項。
3.如權利要求1或2所述的方法,其特征在于,在所述獲取所述目標靜態配置文件中包含的爬蟲入口鏈接之前,所述方法還包括:
利用所述爬蟲任務中的第一爬蟲名稱,啟動以所述第一爬蟲名稱命名的爬蟲腳本,其中,
在確定所述爬蟲任務在單個服務器運行時,檢測當前服務器中的執行任務資源情況;
若所述當前服務器中的執行任務資源情況滿足可執行條件,則通過在所述當前服務器上按照所述爬蟲任務的第一爬蟲名稱,獲取并啟動以所述第一爬蟲名稱命名的爬蟲腳本;
在確定所述爬蟲任務為多個爬蟲任務,并且各爬蟲任務在分布式多臺服務器運行時,檢測所述多臺服務器中運行的服務器的執行任務資源情況;
從所述多臺服務器中運行的服務器,按照預設調度策略選擇所述爬蟲任務實際執行的服務器,并在所述實際執行的服務器上,按照所述爬蟲任務的第一爬蟲名稱,獲取并啟動以所述第一爬蟲名稱命名的爬蟲腳本;
所述執行用于對所述爬蟲入口鏈接進行目標數據抓取的爬蟲任務,包括:
利用所述爬蟲腳本,執行用于對所述爬蟲入口鏈接進行目標數據抓取的爬蟲任務。
4.如權利要求1或2所述的方法,其特征在于,在所述獲取所述目標靜態配置文件中包含的爬蟲入口鏈接之后,所述方法還包括:
獲取所述目標靜態配置文件中包含的爬蟲入口鏈接;
將所述爬蟲入口鏈接作為待加入的待爬鏈接,并加入待爬隊列中;
所述執行用于對所述爬蟲入口鏈接進行目標數據抓取的爬蟲任務,包括:
從所述待爬隊列中取出隊列頭部的已有的待爬鏈接,向待爬網站發送異步請求;
接收由所述待爬網站針對所述異步請求返回的響應結果,其中,所述響應結果中包含目標數據。
5.如權利要求4所述的方法,其特征在于,所述將所述爬蟲入口鏈接作為待加入的待爬鏈接,并加入待爬隊列中,包括:
將所述爬蟲入口鏈接作為待加入的待爬鏈接;
判斷所述待加入的待爬鏈接與待爬隊列中已有的待爬鏈接是否重復;
若所述待加入的待爬鏈接與待爬隊列中已有的待爬鏈接重復,則將所述待加入的待爬鏈接加入所述待爬隊列中的同一優先級待爬鏈接的隊列末尾,其中,所述待爬隊列是按照各待爬鏈接被處理的優先級確定的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910292891.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智慧城市時空信息云平臺服務引擎
- 下一篇:垂直搜索方法和系統





