[發明專利]一種網頁爬蟲協作方法有效
| 申請號: | 201110375264.1 | 申請日: | 2011-11-23 |
| 公開(公告)號: | CN102480524A | 公開(公告)日: | 2012-05-30 |
| 發明(設計)人: | 王勁林;王玲芳;鄧峰;齊向東 | 申請(專利權)人: | 中國科學院聲學研究所 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;H04L29/06;G06F17/30 |
| 代理公司: | 北京法思騰知識產權代理有限公司 11318 | 代理人: | 楊小蓉;高宇 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 爬蟲 協作 方法 | ||
1.一種網頁爬蟲協作方法,該方法用于多種網絡環境下存在大量網頁爬蟲情況下的協作方法,所述的方法步驟如下:
步驟1,將一設定周期中某段時間同時在線的爬蟲節點劃分為一采集組,且各爬蟲節點被劃分的所有采集組的在線時間段相連接能實現一個周期的連續在線;
步驟2,以所述采集組為單位進行網頁采集,且各采集組間還通過消息交換的方法協作實現設定周期內對網頁內容的不間斷采集;
步驟3,所述每個采集組內的若干爬蟲節點協作存儲該采集組所采集的網頁;
其中,所述采集組包含兩個以上的采集節點。
2.根據權利要求1所述的網頁爬蟲協作方法,其特征在于,所述每個采集組采用自動生成或配置的方式得到對應于該采集組的ID號。
3.根據權利要求1所述的網頁爬蟲協作方法,其特征在于,所述消息交換方法為:各采集組形成一個路由網絡,節點依據路由信息表將信令或消息發送到另一個采集組;
其中,所述路由網絡中的路由協議可采用IP網絡路由中的路由協議,或對等網絡中的各種DHT協議。
4.根據權利要求1所述的網頁爬蟲協作方法,其特征在于,所述消息交換方法為:中心控制消息交換方法,該方法的發送消息的節點向其所在網絡的中心控制節點詢問目的采集組對應的ID信息,在得到該信息后,以此信息為目的地發送消息。
5.根據權利要求1所述的網頁爬蟲協作方法,其特征在于,所述協作存儲為:被采集的網頁在與該采集節點位于同一采集組內的各爬蟲節點上分別保存被采集網頁的副本,所述各副本存儲節點能單獨針對所存儲的網頁驗證是否最新,并執行更新;或由所有副本存儲節點中的一個代表節點對網頁驗證是否最新,并通知其他存儲該網頁的副本節點執行更新或將被采集的網頁直接發送到副本存放節點。
6.根據權利要求1所述的網頁爬蟲協作方法,其特征在于,所述步驟1進一步包含如下步驟:
爬蟲節點上線后,向管理服務器注冊,之后每隔一定時間,管理服務器輪詢各爬蟲節點設備,查詢其在線狀態;
管理服務器依據爬蟲節點的在線信息將所有爬蟲節點劃分成若干采集組;
管理服務器將各采集組的信息反饋到爬蟲節點,各爬蟲節點依據該信息自組成網;
其中,所述爬蟲節點的信息包含該節點所在網絡和/或在線歷史信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所,未經中國科學院聲學研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110375264.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:聽覺測定裝置及其方法
- 下一篇:內燃機的控制裝置





