[發明專利]一種獲取網站資源的方法及裝置有效
| 申請號: | 201710236194.9 | 申請日: | 2017-04-12 |
| 公開(公告)號: | CN108696562B | 公開(公告)日: | 2020-02-21 |
| 發明(設計)人: | 徐凡;黃貞;苗輝 | 申請(專利權)人: | 貴州白山云科技股份有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08 |
| 代理公司: | 北京名華博信知識產權代理有限公司 11453 | 代理人: | 白瑩;李冬梅 |
| 地址: | 550003 貴州省貴安*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 獲取 網站 資源 方法 裝置 | ||
1.一種獲取網站資源的方法,其特征在于,包括:
備份服務器判斷在滿足資源獲取條件時,訪問內容分發網絡節點,從所述內容分發網絡節點獲取目標網站的資源內容并保存;其中,所述判斷在滿足資源獲取條件是指:判斷不存在所述目標網站的資源內容或者存在所述目標網站的資源內容并且所述資源內容已超過更新期限;
所述從所述內容分發網絡節點獲取目標網站的資源內容包括:所述內容分發網絡節點收到所述備份服務器發送的用于獲取所述目標網站的資源內容請求后,判斷所述內容分發網絡節點是否存在所述目標網站的資源內容的緩存,如果是,將緩存的所述目標網站的資源內容發送至所述備份服務器,如果否,從所述目標網站的源站獲取所述目標網站的資源內容并發送至所述內容分發網絡節點;
備份服務器獲取目標網站的資源內容的方式為使用爬蟲程序獲取,使用爬蟲程序獲取從CDN節點爬取目標網站,指定爬取入口和包含的子域名,爬蟲程序使用Scrapy框架分析頁面包含的資源,根據后臺配置層級進行爬??;爬蟲程序對網站的資源進行選擇性的爬取,根據經驗值進行設置爬取的內容范圍或者爬取一定鏈接等級的內容;
所述方法還包括:所述備份服務器將獲取的目標網站的資源內容存儲于云存儲服務器;
內容分發網絡節點接收到對所述目標網站的訪問請求后,查詢所述內容分發網絡節點中預設的所述目標網站的各預設源站的狀態,在各預設源站的狀態均為故障時,將各預設源站的地址設置為所述備份服務器的地址;
所述備份服務器接收到用戶對所述目標網站的訪問請求后,從所述云存儲服務器獲取與所述訪問請求對應的資源內容,將所述資源內容返回至所述內容分發網絡節點;
所述內容分發網絡節點將從所述備份服務器接收到的資源內容發送至所述訪問請求的發送方。
2.如權利要求1所述的獲取網站資源的方法,其特征在于,
所述備份服務器將所述資源內容存儲于云存儲服務器:備份服務器獲取目標網站的資源內容后記錄此資源內容的版本,將所述資源內容和相應的版本存儲于云存儲服務器;
所述方法還包括:所述內容分發網絡節點將各預設源站的地址設置為所述備份服務器的地址后,確定版本信息,向所述備份服務器發送所述版本信息;所述備份服務器接收到用戶對所述目標網站的訪問請求,從所述云存儲服務器獲取與所述訪問請求對應的所述版本下的資源內容,將所述資源內容返回至所述內容分發網絡節點。
3.如權利要求2所述的獲取網站資源的方法,其特征在于,
所述版本信息包括備份服務器獲取目標網站的資源內容的時間信息。
4.如權利要求1所述的獲取網站資源的方法,其特征在于,
目標網站的資源內容是指以下內容中的至少一種:所述目標網站的所有資源內容、所述目標網站的子域名下的資源內容、所述目標網站的不同鏈接等級對應的資源內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州白山云科技股份有限公司,未經貴州白山云科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710236194.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:資源推送的方法和裝置
- 下一篇:一種基于物聯網的監控方法及監控系統





