[發明專利]一種可定制的網絡爬蟲方法及系統有效
| 申請號: | 201910292891.5 | 申請日: | 2019-04-12 |
| 公開(公告)號: | CN110020062B | 公開(公告)日: | 2021-09-24 |
| 發明(設計)人: | 張熙;段馨凝;吳旭;方濱興 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 丁蕓;馬敬 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 定制 網絡 爬蟲 方法 系統 | ||
本發明實施例提供了一種可定制的網絡爬蟲方法及系統,其中可定制的網絡爬蟲方法,包括:通過人工輸入配置界面獲取單個待生成爬蟲任務的配置項;利用所述配置項中的第一爬蟲名稱,查找為所述第一爬蟲名稱預先配置的網站靜態配置文件,作為目標靜態配置文件;通過所述目標靜態配置文件中包含的第一網站運行配置文件名稱,查找為所述第一網站運行配置文件名稱預先配置的網站運行配置文件,作為目標運行配置文件;基于所述目標靜態配置文件、所述目標運行配置文件及所述配置項,生成包含所述配置項的爬蟲任務;獲取所述目標靜態配置文件中包含的爬蟲入口鏈接;執行用于對所述爬蟲入口鏈接進行目標數據抓取的爬蟲任務。
技術領域
本發明涉及網絡爬蟲技術領域,特別是涉及一種可定制的網絡爬蟲方法及系統。
背景技術
隨著網絡技術的飛速發展,互聯網成為人們獲取互聯網信息的一個重要途徑,而在這個信息爆炸的時代,互聯網信息以指數級的速度增長,以至于互聯網信息過載,超出了人工處理的能力。網絡爬蟲相對于傳統人工采集數據的方式,可以更加高效、實時和準確地采集大規模數據。
網絡爬蟲是一種可以按規則自動抓取互聯網信息的程序或腳本,一般對于定向網絡爬蟲而言,定向網絡爬蟲需要指定一些特定的網站作為數據源進行精確采集,可以更加精準地獲取目標數據。詳細說明如下:
目前定向網絡爬蟲在數據采集工作時,需要針對不同網站的頁面結構和特點,人工構造不同的爬蟲程序,也就是,對不同網站中的每個爬蟲入口鏈接,都需要人工構造各自單獨的爬蟲程序,比如,5個不同網站,需要寫5個爬蟲程序。然后人工運行構造各自單獨的爬蟲程序,從而抓取目標數據。
這種方式雖然實現了抓取目標數據,但會存在如下問題:
當需要抓取的網站數量較多時,由于在定向網絡爬蟲完成目標數據抓取過程中,構造不同網站各自單獨的爬蟲程序,導致人工工作量較大及代碼復用率較低的問題,也影響目標數據的抓取進度。
發明內容
本發明實施例的目的在于提供一種可定制的網絡爬蟲方法及系統,用以解決現有技術中當需要抓取的網站數量較多時,由于在定向網絡爬蟲完成目標數據抓取過程中,構造不同網站各自單獨的爬蟲程序,導致人工工作量較大及代碼復用率較低,也影響目標數據的抓取進度的技術問題。具體技術方案如下:
第一方面,本發明實施提供了可定制的網絡爬蟲方法,包括:
通過人工輸入配置界面獲取單個待生成爬蟲任務的配置項;
利用所述配置項中的第一爬蟲名稱,查找為所述第一爬蟲名稱預先配置的網站靜態配置文件,作為目標靜態配置文件;
通過所述目標靜態配置文件中包含的第一網站運行配置文件名稱,查找為所述第一網站運行配置文件名稱預先配置的網站運行配置文件,作為目標運行配置文件;
基于所述目標靜態配置文件、所述目標運行配置文件及所述配置項,生成包含所述配置項的爬蟲任務;
獲取所述目標靜態配置文件中包含的爬蟲入口鏈接;
執行用于對所述爬蟲入口鏈接進行目標數據抓取的爬蟲任務。
進一步的,所述目標靜態配置文件的配置項名稱包括:包含第一爬蟲名稱的定義待爬網站爬蟲的爬蟲名稱、包含第一網站運行配置文件名稱的網站運行配置文件名稱、爬蟲入口鏈接及鏈接篩選規則中的一項或多項;
所述目標運行配置文件包括:多個網站運行配置文件,所述目標運行配置文件的配置項名稱用于定義所述待生成爬蟲任務運行所需的配置參數,所述所述目標運行配置文件的配置項名稱包括:最大并行請求個數、下載延遲、超時時間、失敗重試次數及間隔、最大爬取深度、重復請求過濾算法、日志級別、文件存儲位置及最大并行處理抓取項個數中的一項或多項;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910292891.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智慧城市時空信息云平臺服務引擎
- 下一篇:垂直搜索方法和系統





