[發明專利]基于站點配額的均衡調度系統及方法在審
| 申請號: | 201510090112.5 | 申請日: | 2015-02-27 |
| 公開(公告)號: | CN104639462A | 公開(公告)日: | 2015-05-20 |
| 發明(設計)人: | 盧宏林 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | H04L12/865 | 分類號: | H04L12/865 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 站點 配額 均衡 調度 系統 方法 | ||
本發明專利申請是申請日為2012年09月29日、申請號為201210376922.3、名稱為“基于站點配額的均衡調度系統及方法”的中國發明專利申請的分案申請。
技術領域
本發明涉及互聯網技術領域,具體涉及一種基于站點配額的均衡調度系統及方法。
背景技術
對于搜索引擎來說,從互聯網上抓取頁面是其處理的第一步。然而互聯網累積的頁面數巨大,而每天新更新和新產生的頁面數同樣非常巨大。如何及時地獲取這些頁面,是搜索引擎面臨的首要問題。為了能及時地抓取這些海量頁面,必須進行合理而有效的調度。因此,采用何種調度算法就非常重要了。
目前,網頁搜索在進行網頁抓取調度時,對于新發現的頁面按順序進行排隊。對于歷史頁面,則根據歷史頁面的更新頻率來決定其重新調度的頻度。
在網頁搜索中,由于所有頁面都采用統一的策略,下載延遲的時間幾乎都是按天來計的。這對于很多垂直搜索來說是無法容忍的。
特殊情況下,大數據量網站將影響其他網站的及時處理。如果服務器數量不足,一些數據量大的網站的頁面,將占去大部分處理能力,導致其他網站無法及時處理。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的基于站點配額的均衡調度系統及方法。
依據本發明的一個方面,提供了一種基于站點配額的均衡調度系統,包括:
調度任務獲取模塊,適于獲取站點的域名隊列中的調度任務;
調度模塊,適于對所述調度任務所指定的服務器按照預配置的一次可調度頁面數從所述服務器中下載相應數量的頁面。
可選地,所述調度任務獲取模塊適于按預定的任務優先級獲取站點的域名隊列中的調度任務。
可選地,所述系統還包括:反饋調整模塊,適于在調度一個頁面后將所述服務器的上次調度時間更新為所述上次調度時間加上頁面超時時間。
可選地,所述系統還包括:反饋調整模塊,適于在下載一個頁面后將所述服務器的上次調度時間更新為所述上次調度時間減去回調時間,所述回調時間為頁面超時時間與所述頁面下載時間之差。
可選地,當頁面實際下載時間小于預設的下載耗時,則所述頁面下載時間為所述預設的下載耗時,否則為頁面實際下載時間。
可選地,所述系統還包括:配額分配模塊,具體包括:
站點結構定位模塊,適于獲取當前服務器上的站點總數,根據站點序號,直接定位站點結構;
域名配額分配模塊,適于從站點結構中獲取該站點的域名總數和首尾域名序號,對站點域名按上次調度時間進行排序,從選擇排序后的域名中選擇預定數量的域名;
域名IP定位模塊,適于對選定的域名根據其域名IP總數和域名IP首尾序號定位其域名IP地址,通過域名IP中的IP偏移定位IP結構地址,依次選取并記錄IP的上次調度時間,選擇上次調度時間最早的IP對應的服務器;
調度時間設置模塊,適于定位IP結構后,比較IP結構里的上次調度時間與當前時間。如果上次調度時間大于或等當前時間,不為該服務器分配所述一次可調度頁面數,如果上次調度時間小于當前時間,為該服務器分配所述一次可調度頁面數,同時將該IP的上次調度時間置為當前時間;
循環分配模塊,適于如果該域名中IP結構分配完成,循環處理下一個域名,否則在剩下的IP中選擇上次調度時間最早的一個IP繼續處理,當前站點中所有域名分配完成后,將站點序號加1,以便處理下一個站點,如果站點數達到最大值,序號重置為0,如果在所有站點都檢查過一次后沒有可分配站點,休眠預定時間后再對所有站點循環分配。
可選地,預定時間為1秒。
根據本發明的另一方面,提供了基于站點配額的均衡調度方法,包括以下步驟:
獲取站點的域名隊列中的調度任務;
對所述調度任務所指定的服務器按照預配置的一次可調度頁面數從所述服務器中下載相應數量的頁面。
可選地,按預定的任務優先級獲取站點的域名隊列中的調度任務。
可選地,調度一個頁面后還包括步驟:將所述服務器的上次調度時間更新為所述上次調度時間加上頁面超時時間。
可選地,下載一個頁面后還包括步驟:將所述服務器的上次調度時間更新為所述上次調度時間減去回調時間,所述回調時間為頁面超時時間與所述頁面下載時間之差。
可選地,當頁面實際下載時間小于預設的下載耗時,則所述頁面下載時間為所述預設的下載耗時,否則為頁面實際下載時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司;,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510090112.5/2.html,轉載請聲明來源鉆瓜專利網。





