[發明專利]一種網絡爬蟲方法及裝置有效
| 申請號: | 201510609537.2 | 申請日: | 2015-09-22 |
| 公開(公告)號: | CN105260405B | 公開(公告)日: | 2019-08-16 |
| 發明(設計)人: | 羅杰;梁家盟 | 申請(專利權)人: | 北京云知聲信息技術有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 北京尚倫律師事務所 11477 | 代理人: | 張俊國 |
| 地址: | 100191 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 爬蟲 方法 裝置 | ||
1.一種網絡爬蟲方法,其特征在于,包括:
獲取網絡爬蟲任務的配置文件,所述配置文件包括所述網絡爬蟲任務的每一個執行階段的標識、所述每一個執行階段的執行順序及所述每一個執行階段對應的配置參數;
根據所述每一個執行階段的標識以及所述每一個執行階段的執行順序,確定所述網絡爬蟲任務的當前執行階段;
獲取所述當前執行階段的輸入數據,所述輸入數據為所述當前執行階段之前的上一個執行階段的輸出數據,所述輸入數據或所述輸出數據是通過預設的輸入輸出接口格式進行輸入或輸出的;
將所述輸入數據中的配置參數的類型和所述當前執行階段對應的配置參數的類型進行對比,得到所述當前執行階段對應的配置參數中與所述輸入數據中的配置參數類型不匹配的第一配置參數;
確定將所述輸入數據中的配置參數轉換為所述第一配置參數的轉換規則;
根據所述轉換規則對所述輸入數據中的配置參數進行轉換,得到所述當前執行階段對應的配置參數;
根據所述當前執行階段對應的配置參數和所述輸入數據執行所述當前執行階段。
2.根據權利要求1所述的方法,其特征在于,所述當前執行階段的輸入數據包括所述網絡爬蟲任務的配置文件和所述上一個執行階段的執行結果數據。
3.根據權利要求1所述的方法,其特征在于,所述方法還包括:
生成包括所述當前執行階段的執行結果數據的輸出數據。
4.根據權利要求1所述的方法,其特征在于,所述配置文件中包括線程配置數據;所述方法還包括:
讀取所述線程配置數據,所述線程配置數據中包括每一個執行階段的單次并行執行的線程數;
按照所述每一個執行階段的單次并行執行的線程數,執行所述每一個執行階段。
5.一種網絡爬蟲裝置,其特征在于,包括:
第一獲取模塊,用于獲取網絡爬蟲任務的配置文件,所述配置文件包括所述網絡爬蟲任務的每一個執行階段的標識、所述每一個執行階段的執行順序及所述每一個執行階段對應的配置參數;
確定模塊,用于根據所述每一個執行階段的標識以及所述每一個執行階段的執行順序,確定所述網絡爬蟲任務的當前執行階段;
第二獲取模塊,用于獲取所述當前執行階段的輸入數據,所述輸入數據為所述當前執行階段之前的上一個執行階段的輸出數據,所述輸入數據或所述輸出數據是通過預設的輸入輸出接口格式進行輸入或輸出的;
所述裝置還包括:第一執行模塊,其中,所述第一執行模塊包括:對比子模塊、確定子模塊、轉換子模塊和執行子模塊;
所述對比子模塊,用于將所述輸入數據中的配置參數的類型和所述當前執行階段對應的配置參數的類型進行對比,得到所述當前執行階段對應的配置參數中與所述輸入數據中的配置參數類型不匹配的第一配置參數;
所述確定子模塊,用于確定將所述輸入數據中的配置參數轉換為所述第一配置參數的轉換規則;
所述轉換子模塊,用于根據所述轉換規則對所述輸入數據中的配置參數進行轉換,得到所述當前執行階段對應的配置參數;
所述執行子模塊,用于根據所述當前執行階段對應的配置參數和所述輸入數據執行所述當前執行階段。
6.根據權利要求5所述的裝置,其特征在于,所述第二獲取模塊獲取的當前執行階段的輸入數據包括所述網絡爬蟲任務的配置文件和所述上一個執行階段的執行結果數據。
7.根據權利要求5所述的裝置,其特征在于,所述裝置還包括:
生成模塊,生成包括所述當前執行階段的執行結果數據的輸出數據。
8.根據權利要求5所述的裝置,其特征在于,所述裝置還包括:
讀取模塊,用于讀取所述配置文件中的線程配置數據,所述線程配置數據中包括每一個執行階段的單次并行執行的線程數;
第二執行模塊,用于按照所述每一個執行階段的單次并行執行的線程數,執行所述每一個執行階段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京云知聲信息技術有限公司,未經北京云知聲信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510609537.2/1.html,轉載請聲明來源鉆瓜專利網。





