[發明專利]爬蟲種子獲取方法與設備及爬蟲爬取方法與設備有效
| 申請號: | 201110232595.X | 申請日: | 2011-08-15 |
| 公開(公告)號: | CN102355488A | 公開(公告)日: | 2012-02-15 |
| 發明(設計)人: | 吳濱華;王祖海 | 申請(專利權)人: | 北京星網銳捷網絡技術有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;G06F17/30 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 李勇 |
| 地址: | 100036 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 爬蟲 種子 獲取 方法 設備 | ||
1.一種爬蟲種子獲取方法,其特征在于,包括:
根據預設檢索詞詞典和目標導航網站的統一資源定位符URL特性,構造動態頁面請求;
將所述動態頁面請求發送給所述目標導航網站的服務器;
根據預設提取策略,從所述服務器根據所述動態頁面請求返回的檢索結果頁面中提取目標URL,所述目標URL為所述檢索結果頁面中的URL的主域名地址;
對所述目標URL進行唯一化處理,獲取唯一化目標URL,將所述唯一化目標URL作為爬蟲種子。
2.根據權利要求1所述的爬蟲種子獲取方法,其特征在于,所述根據預設檢索詞詞典和目標導航網站的URL特性,構造動態頁面請求包括:
將所述檢索詞詞典中的所有檢索詞加載到內存空間;
當所述內存空間中有檢索詞存在時,獲取一個檢索詞;
按照所述目標導航網站的URL特性,用所獲取的檢索詞對應的十六進制編碼構造動態URL,以形成所述動態頁面請求。
3.根據權利要求2所述的爬蟲種子獲取方法,其特征在于,所述按照所述目標導航網站的URL特性,用所獲取的檢索詞對應的十六進制編碼構造動態URL,以形成所述動態頁面請求包括:
判斷所述目標導航網站是否為預設的特殊網站;
如果判斷結果為是,將所獲取的檢索詞對應的GB2312格式的編碼轉換為UTF-8格式的編碼,將UTF-8格式的編碼的二進制值轉換為十六進制值,用轉換出的十六進制編碼構造符合所述特殊網站的URL特性的動態URL,以形成所述動態頁面請求;
如果判斷結果為否,將所獲取的檢索詞對應的GB2312格式的編碼的二進制值轉換為十六進制值,用轉換出的十六進制編碼構造符合所述目標導航網站的URL特性的動態URL,以形成所述動態頁面請求。
4.根據權利要求1或2或3所述的爬蟲種子獲取方法,其特征在于,所述將所述動態頁面請求發送給所述目標導航網站的服務器包括:
向所述服務器發送超文本傳輸協議HTTP請求,所述HTTP請求包括所述動態頁面請求;或者
向所述服務器發送URL訪問請求,所述URL訪問請求包括所述動態頁面請求。
5.根據權利要求2或3所述的爬蟲種子獲取方法,其特征在于,所述根據預設提取策略,從所述服務器根據所述動態頁面請求返回的檢索結果頁面中提取目標URL包括:
接收所述服務器返回的當前檢索結果頁面,提取當前檢索結果頁面中的URL的主域名地址作為所述目標URL,并將所述目標URL加入唯一化隊列中;
當根據預設檢索頁面閾值判斷出當前檢索結果頁面還有下一頁時,獲取下一頁頁面請求,并將所述下一頁頁面請求發送給所述服務器,并繼續執行接收所述服務器返回的當前檢索結果頁面,提取當前檢索結果頁面中的URL的主域名地址作為所述目標URL,并將所述目標URL加入唯一化隊列中的操作,直到當前檢索結果頁面不存在下一頁為止,然后將與所述檢索結果頁面對應的檢索詞從所述內存空間中刪除。
6.根據權利要求5所述的爬蟲種子獲取方法,其特征在于,所述獲取下一頁頁面請求,并將所述下一頁頁面請求發送給所述服務器包括:
從當前檢索結果頁面中獲取下一頁點擊按鈕,點擊所述下一頁點擊按鈕以向所述服務器發送所述下一頁頁面請求;或者
根據所述動態頁面請求對應的檢索詞和當前檢索結果頁面的頁面規律,構造所述下一頁檢索結果頁面對應的動態URL,并將所述下一頁檢索結果頁面對應的動態URL發送給所述服務器。
7.根據權利要求5所述的爬蟲種子獲取方法,其特征在于,所述對所述目標URL進行唯一化處理,獲取唯一化目標URL,將所述唯一化目標URL作為爬蟲種子包括:
當所述唯一化隊列中還存在目標URL時,從所述唯一化隊列中獲取一目標URL;
當所獲取的目標URL已經存在于爬蟲種子列表中時,將所獲取的目標URL從唯一化隊列中刪除,并判斷所述唯一化隊列中是否還存在目標URL;
當所獲取的目標URL不存在于所述爬蟲種子列表中時,將所獲取的目標URL存儲到所述爬蟲種子列表中,將所獲取的目標URL從唯一化隊列中刪除,并判斷所述唯一化隊列中是否還存在目標URL;
當所述唯一化隊列中不存在目標URL時,將所述爬蟲種子列表中存儲的目標URL作為所述爬蟲種子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京星網銳捷網絡技術有限公司,未經北京星網銳捷網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110232595.X/1.html,轉載請聲明來源鉆瓜專利網。





