[發明專利]確定抓取流量的方法及設備有效
| 申請號: | 201310500053.5 | 申請日: | 2013-10-22 |
| 公開(公告)號: | CN103530392B | 公開(公告)日: | 2018-04-24 |
| 發明(設計)人: | 魏少俊 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京華沛德權律師事務所11302 | 代理人: | 劉杰 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 抓取 流量 方法 設備 | ||
技術領域
本發明涉及搜索引擎技術領域,具體涉及確定抓取流量的方法及設備。
背景技術
搜索引擎是一種互聯網信息平臺,通過搜索引擎能夠將互聯網上的大量網頁信息收集起來,經過加工處理后,建立信息數據庫和索引數據庫,用戶可以通過在搜索引擎提供的入口中輸入查詢詞,從而獲取搜索引擎針對該查詢詞返回的搜索結果。隨著搜索引擎技術的不斷發展和成熟,其提供的服務業越來越完善,在人們從規模龐大的互聯網中獲取所需信息時,搜索引擎已經成為一種非常常用,也非常便利的工具。
搜索引擎為了能夠下載互聯網上的網頁,以供分析網頁數據和建立索引,往往需要使用一種抓取網頁的工具程序,這種程序通常被稱為“爬蟲程序”或“蜘蛛程序”。由于互聯網上總是不停的產生新網頁,同時原有的網頁也在不斷的更新,因此爬蟲程序需要不停的工作,以保證搜索引擎能夠得到最新的網頁數據。為了提供更好的搜索結果,搜索引擎的爬蟲程序總希望能夠更快地收錄互聯網上的新網頁以及更新的原有網頁。但網頁資源位于網絡上的各個站點主機上,爬蟲程序對網頁資源的抓取勢必會占用站點主機的服務資源,如站點主機的軟硬件處理資源,帶寬等。如果抓取網頁的任務超過了站點主機的承受范圍,就會影響到網站用戶的正常訪問,那么爬蟲程序的網頁抓取行為就成為了對網站不友好行為,嚴重時會導致影響網站響應超時,甚至網站服務器崩潰。而且,為保護網站的穩定性,網站常常會監控爬蟲程序的訪問,并對產生不友好行為的爬蟲程序采取限制,甚至禁止訪問措施。一旦爬蟲程序被限制或禁止,搜索引擎的網頁抓取效率會變低,甚至無法更新或下載該網站網頁資源,最終對搜索服務的提供產生負面影響。
同時,現有技術中一般是由人工設定來設定爬蟲程序可對網站抓取的流量或頻率,這種方式雖然減少搜索引擎的爬蟲程序與被抓取網站的沖突,但是對網頁數據更新沒有得到最大體現,因此使得爬蟲程序抓取行為與網站數據更新的需求沒有得到合理的平衡。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的確定抓取流量的設備和相應的確定抓取流量的方法。
依據本發明的一個方面,提供了一種確定抓取流量的方法,包括:
根據目標網站屬性特征獲取任務比例因子;
基于所述任務比例因子及目標網站內的網頁質量分布總和,確定抓取目標網站的任務流量。
可選地,所述根據目標網站屬性特征獲取任務比例因子,包括:
獲取所述目標網站中,待抓取的網頁數占所述目標網站中已收錄網頁總數的比例;
和/或,
獲取所述目標網站中,不重復的網頁數量占所述目標網站中網頁總數的比例。
可選地,所述獲取所述目標網站中,待抓取的網頁數占所述目標網站中已收錄網頁總數的比例,包括:
獲取所述目標網站中,抓取歷史中更新的網頁數,和/或,所述目標網站中新產生的網頁數,占所述目標網站中已收錄網頁總數的比例。
可選地,所述獲取所述目標網站中,不重復的網頁數量占所述目標網站中網頁總數的比例,包括:
在對目標網站的抓取歷史中,獲取和比對所抓取的網頁的信息指紋;
根據比對的結果獲取不重復的信息指紋數,占總指紋數的比例,作為所述不重復的網頁數量占所述目標網站中網頁總數的比例。
可選地,所述基于所述任務比例因子及目標網站內的網頁質量分布總和,確定抓取目標網站的任務流量,包括:
基于一個或多個所述任務比例因子與所述目標網站內的網頁質量分布總和的乘積,確定抓取目標網站的任務流量。
可選地,所述網頁質量分布總和通過如下方式確定:
根據所述目標網站內網頁的pagerank,和/或網頁的鏈接深度,確定網頁的評分;
對所述目標網站內多個網頁的評分進行歸一化處理,獲得各個網頁對應的質量分布;
根據獲得的各個網頁對應的質量分布,確定所述網頁質量分布總和。
可選地,還包括:
根據抓取目標網站的任務總時間確定單位時間系數;
所述基于所述任務比例因子及目標網站內的網頁質量分布總和,確定抓取目標網站的任務流量,包括:
根據所述網頁質量分布的總和與一個或多個所述任務比例因子,以及所述單位時間系數的乘積,確定抓取目標網站的任務流量。
可選地,還包括:
根據所述抓取目標網站的任務流量,對目標網站進行網頁抓取。
根據本發明的另一方面,提供了一種確定抓取流量的設備,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310500053.5/2.html,轉載請聲明來源鉆瓜專利網。





