[發明專利]網頁的爬取方法和裝置在審
| 申請號: | 201710591483.0 | 申請日: | 2017-07-19 |
| 公開(公告)號: | CN110020064A | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 邢琰 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/951;G06F16/955;G06F16/958 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 趙囡囡;褚敏 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 判斷結果 網頁 子網頁 集合 方法和裝置 目錄頁 內容頁 目標網站 網站URL 不一致 記錄 | ||
本發明公開了一種網頁的爬取方法和裝置。其中,該方法包括:爬取目標網站的根URL下的子網頁URL;利用第一集合和第二集合對子網頁URL進行判斷得到第一判斷結果,其中,第一集合用于判斷子網頁URL對應的網頁是否為目錄頁,第二集合用于判斷子網頁URL對應的網頁是否為內容頁;利用預定類對子網頁URL進行判斷得到第二判斷結果,其中,第二判斷結果用于指示子網頁URL為目錄頁或者內容頁;如果第一判斷結果和第二判斷結果一致,則按照第一判斷結果繼續對子網頁URL進行爬取;如果第一判斷結果和第二判斷結果不一致,則記錄子網頁URL。解決了確定網站URL規則的效率低的技術問題,提高了處理的效率。
技術領域
本發明涉及互聯網領域,具體而言,涉及一種網頁的爬取方法和裝置。
背景技術
網絡爬蟲是一種按照一定的規則自動地抓取萬維網特定信息的程序,在實際的爬蟲系統中,往往有爬取深度的限制和判斷內容頁或目錄頁的要求(內容頁是爬蟲要爬取的頁面,例如網站上的一篇文章,報道等;目錄頁是內容頁的索引,目錄頁的每一個鏈接指向一個內容頁)。爬蟲系統中判斷內容頁和目錄頁的邏輯比較簡單,但是網站的開發人員對URL結構的設計有很大的不確定性(例如,相關的URL結構:http://www.ccszf.gov.cn/ccszf/1/tindex.shtml),同樣一個URL結構在一個網站中為內容頁,而在另一個網站中就為目錄頁,爬蟲系統中對內容頁和目錄頁的判斷不可能包含所有的網站,因此,相關技術經常會出現內容頁和目錄頁判斷錯誤的情況。當在判斷錯誤的情況下,會導致系統做出錯誤的處理(例如,如果將內容頁錯誤判斷為目錄頁,在到達爬取深度的最大值時就會放棄目錄頁,不再進行爬取,導致內容頁缺失;而如果將目錄頁錯誤判斷為內容頁,內容頁是不會抽取鏈接的,這樣就失去了目錄頁的鏈接)。除此之外,在相關技術中,爬蟲系統對待爬取網站的URL規則的判斷是通過人工的方式進行添加,具體是人工篩選將不符合規則的網站的URL添加到一個預定類中,在爬蟲系統的程序運行時,會通過預定類給出的判斷結果得到是內容頁還是目錄頁。這種純人工的方式,需要用戶去點開網站中的所有URL結構的網頁并對其進行人工判斷。在找到規則后,還需要人工在預定類中添加判斷語句。由于每個網站的URL規則不盡相同,所以添加的規則也不同。種子的個數一旦增多將大大增加工作量。
針對上述的確定網站URL規則的效率低問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種網頁的爬取方法和裝置,以至少解決確定網站URL規則的效率低的技術問題。
根據本發明實施例的一個方面,提供了一種網頁的爬取方法,包括:爬取目標網站的根URL下的子網頁URL;利用第一集合和第二集合對所述子網頁URL進行判斷得到第一判斷結果,其中,所述第一集合用于判斷所述子網頁URL對應的網頁是否為目錄頁,所述第二集合用于判斷所述子網頁URL對應的網頁是否為內容頁;利用預定類對所述子網頁URL進行判斷得到第二判斷結果,其中,所述第二判斷結果用于指示所述子網頁URL為所述目錄頁或者所述內容頁;如果所述第一判斷結果和所述第二判斷結果一致,則按照所述第一判斷結果繼續對所述子網頁URL進行爬取;如果所述第一判斷結果和所述第二判斷結果不一致,則記錄所述子網頁URL。
可選地,利用第一集合和第二集合對所述子網頁URL進行判斷得到第一判斷結果包括:判斷所述子網頁URL被所述第一集合攔截還是被所述第二集合攔截;如果所述子網頁URL被所述第一集合攔截,則確定所述子網頁URL對應的網頁為所述目錄頁;如果所述子網頁URL被所述第二集合攔截,則確定所述子網頁URL對應的網頁為所述內容頁。
可選地,在記錄所述子網頁URL之后,所述方法還包括:按照所述第一判斷結果對所述子網頁URL進行爬取。
可選地,在記錄所述子網頁URL之后,所述方法還包括:向所述預定類中添加邏輯判斷規則,其中,所述邏輯判斷規則用于判斷所述子網頁URL為內容頁或目錄頁;利用所述預定類中的所述邏輯判斷規則將所述子網頁URL判斷為所述第一判斷結果所指示的頁面類型,所述頁面類型是內容頁或者目錄頁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710591483.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:垂直搜索方法和系統
- 下一篇:一種網站識別方法及裝置





