[發明專利]一種網絡爬蟲方法及裝置有效
| 申請號: | 201510609537.2 | 申請日: | 2015-09-22 |
| 公開(公告)號: | CN105260405B | 公開(公告)日: | 2019-08-16 |
| 發明(設計)人: | 羅杰;梁家盟 | 申請(專利權)人: | 北京云知聲信息技術有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 北京尚倫律師事務所 11477 | 代理人: | 張俊國 |
| 地址: | 100191 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 爬蟲 方法 裝置 | ||
本發明公開了一種網絡爬蟲方法及裝置,用于解除網絡爬蟲任務中相鄰執行階段之間的耦合性,從而實現網絡爬蟲的每個執行階段的模塊化。所述方法包括:獲取網絡爬蟲任務的配置文件,配置文件包括網絡爬蟲任務的每一個執行階段的標識、每一個執行階段的執行順序及每一個執行階段對應的配置參數;根據每一個執行階段的標識以及每一個執行階段的執行順序,確定網絡爬蟲的當前執行階段;獲取當前執行階段的輸入數據;根據當前執行階段對應的配置參數和輸入數據執行當前執行階段。該技術方案解除了網絡爬蟲任務中相鄰執行階段之間的耦合性,使每個執行階段的執行更加模塊化,提高了網絡爬蟲的效率。
技術領域
本發明涉及互聯網技術領域,尤其涉及一種網絡爬蟲方法及裝置。
背景技術
爬蟲作為一種自動獲取網頁內容的程序,是搜索引擎的重要組成部分。網絡爬蟲,是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。具體的爬蟲任務一般分為下載、抽取、清洗、存儲四個階段,且每個階段都有各自的輸入輸出,也就是說,不同階段的輸入或輸出的內容、格式均有所不同,從而導致爬蟲的過程不可分割,必須按照既定的階段順序執行,相鄰兩個階段之間的耦合性較大,且網絡爬蟲的代碼重用性低。
發明內容
本發明實施例提供一種網絡爬蟲方法及裝置,用于解除網絡爬蟲任務中相鄰執行階段之間的耦合性,從而實現網絡爬蟲的每個執行階段的模塊化。
一種網絡爬蟲方法,包括以下步驟:
獲取網絡爬蟲任務的配置文件,所述配置文件包括所述網絡爬蟲任務的每一個執行階段的標識、所述每一個執行階段的執行順序及所述每一個執行階段對應的配置參數;
根據所述每一個執行階段的標識以及所述每一個執行階段的執行順序,確定所述網絡爬蟲的當前執行階段;
獲取所述當前執行階段的輸入數據,所述輸入數據為所述當前執行階段之前的上一個執行階段的輸出數據,所述輸入數據或所述輸出數據是通過預設的輸入輸出接口格式進行輸入或輸出的;
根據所述當前執行階段對應的配置參數和所述輸入數據執行所述當前執行階段。
本發明實施例的一些有益效果可以包括:
上述技術方案,通過確定網絡爬蟲任務的當前執行階段,并將上一個執行階段的輸出數據作為當前執行階段的輸入數據,且輸入數據和輸出數據都是通過預設的輸入輸出接口格式進行輸入或輸出的,使得每個執行階段的輸入輸出接口格式唯一,從而使每個執行階段的輸出數據都可通過預設的輸入輸出接口格式作為任意一個執行階段的輸入數據,解除了網絡爬蟲任務中相鄰執行階段之間的耦合性,使每個執行階段的執行更加模塊化,提高了網絡爬蟲的效率。
在一個實施例中,所述當前執行階段的輸入數據包括所述網絡爬蟲任務的配置文件和所述上一個執行階段的執行結果數據。
該實施例使得當前執行階段能夠根據輸入數據中的配置文件以及上一個執行階段的執行結果數據來執行,從而確保上一個執行階段的輸出數據能夠作為當前執行階段的輸入數據傳遞給當前執行階段,以提高網絡爬蟲的效率。
在一個實施例中,所述根據所述當前執行階段對應的配置參數和所述輸入數據執行所述當前執行階段之后,所述方法還包括:
生成包括所述當前執行階段的執行結果數據的輸出數據。
該實施例中,通過生成包括當前執行階段的執行結果數據的輸出數據,從而使得當前執行階段的輸出數據能夠作為下一個執行階段的輸入數據傳遞給下一個執行階段,并且下一個執行階段能夠利用輸入數據中當前執行階段的執行結果來執行,從而提高網絡爬蟲的效率。
在一個實施例中,所述根據所述當前執行階段對應的配置參數和所述輸入數據執行所述當前執行階段,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京云知聲信息技術有限公司,未經北京云知聲信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510609537.2/2.html,轉載請聲明來源鉆瓜專利網。





