[發明專利]一種網站目標頁的發現方法及裝置在審
| 申請號: | 201610052790.7 | 申請日: | 2016-01-26 |
| 公開(公告)號: | CN105740363A | 公開(公告)日: | 2016-07-06 |
| 發明(設計)人: | 湯奇峰;王萬寶 | 申請(專利權)人: | 上海晶贊科技發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 吳敏 |
| 地址: | 200072 上海市閘北區靈*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網站 目標 發現 方法 裝置 | ||
技術領域
本發明涉及互聯網爬蟲領域,特別是涉及一種網站目標頁的發現方法及裝置。
背景技術
互聯網爬蟲技術,通常是從指定的網站入口頁,通過遍歷網站的頁面鏈接,使用正則匹配的方法找到期望的頁面鏈接。然而,互聯網網站的層次各不相同,不同行業的網站分類層次不同,同一行業的不同網站分類層次頁不同。例如,電商行業的網站分類層次通常依次為入口頁面、分類頁面、分頁頁面和詳細頁面,而汽車行業的網站分類層次通常依次為入口頁面、車型列表、車系列表和車系頁面。
在現實應用場景中,往往需要爬蟲發現業務去獲取目標頁的地址,從而可基于發現的所述目標頁的地址爬取其他有用的信息。然而,現有技術中,由于上述網站分類層次的不同,需要不同的爬蟲程序才能適應不同類網站的目標頁地址的發現,這使得為爬取不同的網站需要耗費較大資源。
發明內容
本發明解決的技術問題是提供一種網站目標頁的發現方法及裝置,使得可以通過一套通用的爬蟲系統來爬取不同網站的目標頁,節省了為爬取不同功能網站目標頁所耗費的資源。
為解決上述技術問題,本發明實施例提供一種網站目標也的發現方法,所述方法包括:
從URL隊列中提取具有步驟標識的URL地址;
判斷提取出的當前URL地址的步驟標識是否為預設的最終步驟標識;
當所述當前URL地址的步驟標識并非所述最終步驟標識時,根據所述步驟標識對所述當前URL地址指向的頁面執行抓取操作,以得到下一級URL地址;
為所述下一級URL地址確定步驟標識,所述下一級URL地址的步驟標識不同于所述當前URL地址的步驟標識;
將所述下一級URL地址加入所述URL隊列。
可選地,所述網站目標頁的發現方法還包括:
當所述當前URL地址的步驟標識為所述最終步驟標識時,存儲所述當前URL地址。
可選地,所述網站目標頁的發現方法還包括:重復提取所述URL地址、判斷所述步驟標識、進行抓取操作、確定步驟標識以及加入所述URL隊列的步驟,直至所述URL隊列中的全部URL地址的步驟標識都是所述最終步驟標識。
可選地,所述根據所述步驟標識對所述當前URL地址指向的頁面執行抓取操作,以得到下一級URL地址,包括:
將所述當前URL地址指向的頁面的數據信息中的URL地址與預先配置的正則表達式進行匹配,以篩選出滿足所述正則表達式的URL地址,得到所述下一級URL地址。
可選地,所述根據所述步驟標識對所述當前URL地址指向的頁面執行抓取操作,包括:
使用選擇器在所述當前URL地址指向的頁面定位所述下一級URL地址所在的頁面區域,再進行所述下一級URL地址的抓取。
所述網站目標頁的發現方法,還包括:
初始進入所述URL隊列中的URL地址通過枚舉或配置模板生成。
本發明實施例還提供一種網站目標頁的發現裝置,包括:
提取單元,適于從URL隊列中提取具有步驟標識的URL地址;
判斷單元,適于判斷提取出的當前URL地址的步驟標識是否為預設的最終步驟標識;
抓取單元,適于當所述當前URL地址的步驟標識并非所述最終步驟標識時,根據所述步驟標識對所述當前URL地址指向的頁面執行抓取操作,以得到下一級URL地址;
標記單元,適于為所述下一級URL地址確定步驟標識,所述下一級URL地址的步驟標識不同于所述當前URL地址的步驟標識;
添加單元,適于將所述下一級URL地址加入所述URL隊列。
可選地,所述網站目標頁的發現裝置,還包括:
存儲單元,適于當所述當前URL地址的步驟標識為所述最終步驟標識時,存儲所述當前URL地址。
可選地,所述網站目標頁的發現裝置還包括:
循環單元,適于控制所述提取單元、判斷單元、抓取單元和標記單元分別重復提取所述URL地址、判斷所述步驟標識、進行抓取操作、確定步驟標識以及加入所述URL隊列的步驟,直至所述URL隊列中的全部URL地址的步驟標識都是所述最終步驟標識。
可選地,所述抓取單元適于:將所述當前URL地址指向的頁面的數據信息中的URL地址與預先配置的正則表達式進行匹配,以篩選出滿足所述正則表達式的URL地址,得到所述下一級URL地址。
可選地,所述抓取單元還適于:使用選擇器在所述當前URL地址指向的頁面定位所述下一級URL地址所在的頁面區域,再進行所述下一級URL地址的抓取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海晶贊科技發展有限公司,未經上海晶贊科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610052790.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據倉庫快速查詢方法和裝置
- 下一篇:一種基于用戶偏好的自適應采樣方法





