[發明專利]一種網頁內容抓取方法及裝置有效
| 申請號: | 201310033159.9 | 申請日: | 2013-01-28 |
| 公開(公告)號: | CN103077250A | 公開(公告)日: | 2013-05-01 |
| 發明(設計)人: | 張宗宇;崔世起;楊青 | 申請(專利權)人: | 人民搜索網絡股份公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100020 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 內容 抓取 方法 裝置 | ||
技術領域
本發明涉及信息檢索領域,特別是涉及一種網頁內容抓取方法及裝置。
背景技術
互聯網網頁信息每天都在快速地增長,為了能夠讓搜索引擎快速、全面地索引網頁信息,網絡爬蟲需要每天抓取大量的網頁。
但是,出于對網站目錄方便管理等目的,很多情況下會對網頁參數進行優化。對網頁參數進行優化后,會造成參數不同的統一資源定位符(Universal?Resource?Locator,URL)對應相同的頁面。例如:為了統計訪問news.baidu.com的用戶的來源信息,通常會在原本的URL基礎上增加一個參數“fr”。具體的,當原本的URL為http://news.baidu.com/時,可以將原本的URL修改為http://news.baidu.com/?fr=baiduer。上面的兩個URL,雖然包含的參數不同,但是對應的頁面是相同的。其中,分隔符fr=baiduer這部分參數對于網絡爬蟲來說,由于并不影響網絡爬蟲抓取到的網頁內容,所以可以稱為無效參數。
現有技術中,在抓取網頁內容時,對于參數不同的URL,都會進行一次抓取。由于無效參數的存在,所以會導致對于參數不同的URL指向的相同的頁面內容進行多次重復抓取。這會造成帶寬資源和存儲資源的浪費,進而影響到搜索引擎的覆蓋率和時效性。
發明內容
本發明的目的是提供一種網頁內容抓取方法及裝置,可以識別URL中的有效參數,只對包含有效參數的URL信息對應的網頁內容進行抓取,對于不包含有效參數的URL,不再重復進行網頁抓取,減少帶寬資源和存儲資源的浪費。
為實現上述目的,本發明提供了如下方案:
一種網頁內容抓取方法,包括:
獲取網頁的URL信息;
識別所述URL信息中包含的路徑信息和參數信息;
對于路徑信息相同的URL信息進行聚類,得到包含多個URL信息的URL信息集;
將所述URL信息集中,在每個URL信息中均出現并且參數值不變的參數,確定為有效參數;
抓取有效URL信息對應的網頁內容;
其中,所述有效URL信息中的參數均為有效參數。
可選的,還包括:
將所述URL信息集中,在每個URL信息中均出現但是參數值變化的參數,或者未在全部URL信息中均出現的參數,確定為無效參數;
對于包含無效參數的URL信息對應的網頁內容,不再進行抓取。
可選的,確定無效參數的過程,還包括:
獲取所述URL信息集中的第一URL信息和第二URL信息;所述第一URL信息和第二URL信息中包含相同的第一參數,且所述第一參數在所述第一URL信息和第二URL信息中具有不同的參數值;
獲取所述第一URL信息對應的第一網頁內容以及所述第二URL信息對應的第二網頁內容;
判斷所述第一網頁內容與所述第二網頁內容是否相同;
如果相同,則將所述第一參數確定為無效參數。
可選的,還包括:
在確定出所述無效參數后,在預設時間內對所述無效參數進行驗證,判斷是否出現反例;
如果出現反例,則將所述無效參數確定為有效參數。
可選的,所述對所述無效參數進行驗證,判斷是否出現反例,包括:
獲取包含無效參數的第三URL信息對應的第三網頁內容;
刪除所述第三URL信息中的無效參數,得到第四URL信息;
獲取所述第四URL信息對應的第四網頁內容;
判斷所述第三網頁內容與所述第四網頁內容是否相同;
如果不相同,則確定出現反例。
一種網頁內容抓取裝置,包括:
信息獲取模塊,用于獲取網頁的URL信息;
信息識別模塊,用于識別所述URL信息中包含的路徑信息和參數信息;
聚類模塊,用于對于路徑信息相同的URL信息進行聚類,得到包含多個URL信息的URL信息集;
有效參數確定模塊,用于將所述URL信息集中,在每個URL信息中均出現并且參數值不變的參數,確定為有效參數;
網頁內容抓取模塊,用于抓取有效URL信息對應的網頁內容;
其中,所述有效URL信息中的參數均為有效參數。
可選的,還包括:
無效參數確定模塊,用于將所述URL信息集中,在每個URL信息中均出現但是參數值變化的參數,或者未在全部URL信息中均出現的參數,確定為無效參數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人民搜索網絡股份公司,未經人民搜索網絡股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310033159.9/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





