[發明專利]一種抓取網站數據的方法和裝置有效
| 申請號: | 201610171622.X | 申請日: | 2016-03-24 |
| 公開(公告)號: | CN107229631B | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 朱德偉 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 姜勁;陸錦華 |
| 地址: | 100080 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 抓取 網站 數據 方法 裝置 | ||
本發明提供一種抓取網站數據的方法和裝置,能夠根據網站的代碼質量對網站進行抓取,從而過濾掉一些代碼質量差的網站,從而減少了網絡爬蟲的工作負載,進而也避免了客戶在進行搜索的時候無需在一些代碼質量不高的網站浪費時間,也在一定程度上提高了用戶的使用體驗。本發明的抓取網站數據的方法包括:獲取網站的網頁,確定該網頁的代碼質量;根據所述網頁的代碼質量確定所述網站的抓取概率;根據所述網站的抓取概率抓取所述網站的數據。
技術領域
本發明涉及計算機及其軟件技術領域,特別涉及一種抓取網站數據的方法和裝置。
背景技術
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人)是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。網頁的抓取策略可以分為深度優先、廣度優先和最佳優先三種,同時在網頁權重判定有專門的算法,例如PageRank,即網頁排名,又稱網頁級別、Google左側排名或佩奇排名,是Google創始人拉里·佩奇和謝爾蓋·布林于1997年構建早期的搜索系統原型時提出的鏈接分析算法,自從Google在商業上獲得空前的成功后,該算法也成為其他搜索引擎和學術界十分關注的計算模型。
目前,很多重要的鏈接分析算法都是在PageRank算法基礎上衍生出來的。PageRank算法是Google用于用來標識網頁的等級/重要性的一種方法,是Google用來衡量一個網站的好壞的唯一標準。在揉合了諸如Title標識和Keywords標識等所有其它因素之后,Google通過PageRank來調整結果,使那些更具“等級/重要性”的網頁在搜索結果中的網站排名獲得提升,從而提高搜索結果的相關性和質量。PageRank算法得到的級別從0到10級,10級為滿分。PR值越高說明該網頁越受歡迎(越重要),那么該網頁被抓取的概率也就越高。例如:一個PR值為1的網站表明這個網站不太具有流行度,而PR值為7到10則表明這個網站非常受歡迎(或者說極其重要)。一般PR值達到4,就算是一個不錯的網站了。Google把自己的網站的PR值定到10,這說明Google這個網站是非常受歡迎的,也可以說這個網站非常重要。
現有的網絡爬蟲在抓取網頁時都會用到PageRank算法,就是按照算法來計算網頁重要性,只要網頁的PR值滿足要求,就會對網站的數據進行抓取,在一定程度上增加了網絡爬蟲的工作負載,同時也因龐大的網站數據浪費了客戶的時間,進一步降低了客戶的使用體驗。
發明內容
有鑒于此,本發明提供一種抓取網站數據的方法和裝置,能夠根據網站的代碼質量對網站進行抓取,從而過濾掉一些代碼質量差的網站,從而減少了網絡爬蟲的工作負載,進而也避免了客戶在進行搜索的時候無需在一些代碼質量不高的網站浪費時間,也在一定程度上提高了用戶的使用體驗。
為實現上述目的,根據本發明的一個方面,提供了一種抓取網站數據的方法。
本發明的抓取網站數據的方法包括:獲取網站的網頁,確定該網頁的代碼質量;根據所述網頁的代碼質量確定所述網站的抓取概率;根據所述網站的抓取概率抓取所述網站的數據。
可選地,所述確定該網頁的代碼質量的步驟包括:先根據如下的一種或幾種方式確定各方式對應的得分:使用冗余代碼檢查工具確定該網頁的冗余代碼得分,統計重復關鍵詞得到該網頁的重復度得分,檢查網頁的引用庫版本確定該網頁的引用庫版本得分,使用代碼檢查工具確定該網頁的Javascript代碼質量得分,使用CSS代碼靜態檢查工具確定該網頁的CSS質量得分,統計html標簽中不推薦使用的標簽的個數得到該網頁的標簽得分;然后將所述得分之和作為該網頁的代碼質量。
可選地,所述網站的網頁包括該網站首頁以及設定數目的該網站的二級頁面;根據所述網頁的代碼質量確定所述網站的抓取概率的步驟包括:根據如下公式計算網頁的質量平均分:網頁的質量平均分=(網站的首頁的代碼質量分+網站的二級頁面的代碼質量分)/(1+網站的二級頁面的數目);根據如下公式計算該網站的抓取概率,網站的抓取概率=(設定分數范圍的最大值-網頁的質量平均分)/設定分數范圍的最大值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610171622.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種親密關系在線促進系統
- 下一篇:一種避免線程并發訪問數據庫的方法和裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





