[發明專利]網頁數據爬取的方法和裝置有效
| 申請號: | 201711053152.8 | 申請日: | 2017-10-31 |
| 公開(公告)號: | CN110020076B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 曹志明 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/958 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 趙囡囡 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 數據 方法 裝置 | ||
1.一種網頁數據爬取的方法,其特征在于,包括:
解析接收到的網頁數據爬取請求,得到請求資源類型;
判斷所述請求資源類型是否與預設緩存的請求資源類型相同;
在判斷結果不同的情況下,將所述網頁數據爬取請求發送至遠程網站;
在判斷結果相同的情況下,判斷預存數據中是否存在與所述網頁數據爬取請求對應的數據,并依據判斷結果執行對應操作;
所述判斷預存數據中是否存在與所述網頁數據爬取請求對應的數據,并依據判斷結果執行對應操作包括:
依據所述網頁數據爬取請求在所述預存數據中進行查詢,判斷所述預存數據中是否存在與所述網頁數據爬取請求對應的數據;
在判斷結果為所述預存數據中存在與所述網頁數據爬取請求對應的數據的情況下,向所述網頁數據爬取請求的請求端返回所述網頁數據爬取請求對應的數據;
在判斷結果為所述預存數據中不存在與所述網頁數據爬取請求對應的數據的情況下,向所述遠程網站轉發所述網頁數據爬取請求,并將返回的所述網頁數據爬取請求對應的數據發送至請求端。
2.根據權利要求1所述的方法,其特征在于,在所述解析接收到的網頁數據爬取請求之前,所述方法還包括:
依據網頁的源文件類型配置所述預設緩存的請求資源類型;其中,所述源文件類型包括:Javascript文件或圖片;
將所述Javascript文件和/或所述圖片確定為所述預設緩存的請求資源類型。
3.根據權利要求1或2所述的方法,其特征在于,所述判斷所述請求資源類型是否與預設緩存的請求資源類型相同包括:
解析所述網頁數據爬取請求,得到所述網頁數據爬取請求的請求資源類型;
依據所述請求資源類型在所述預設緩存的請求資源類型中進行查詢,判斷所述請求資源類型是否與所述預設緩存的請求資源類型相同。
4.根據權利要求1所述的方法,其特征在于,所述將返回的所述網頁數據爬取請求對應的數據發送至請求端包括:
獲取所述遠程網站返回的所述網頁數據爬取請求對應的數據;
緩存所述數據;
將所述數據返回所述請求端。
5.一種網頁數據爬取的裝置,其特征在于,包括:
解析模塊,用于解析接收到的網頁數據爬取請求,得到請求資源類型;
第一判斷模塊,用于判斷所述請求資源類型是否與預設緩存的請求資源類型相同;
發送模塊,用于在判斷結果不同的情況下,將所述網頁數據爬取請求發送至遠程網站;
第二判斷模塊,用于在判斷結果相同的情況下,判斷預存數據中是否存在與所述網頁數據爬取請求對應的數據,并依據判斷結果執行對應操作;
所述第二判斷模塊包括:
查詢單元,用于依據所述網頁數據爬取請求在所述預存數據中進行查詢,判斷所述預存數據中是否存在與所述網頁數據爬取請求對應的數據;
第一發送單元,用于在判斷結果為所述預存數據中存在與所述網頁數據爬取請求對應的數據的情況下,向所述網頁數據爬取請求的請求端返回所述網頁數據爬取請求對應的數據;
第二發送單元,用于在判斷結果為所述預存數據中不存在與所述網頁數據爬取請求對應的數據的情況下,向所述遠程網站轉發所述網頁數據爬取請求,并將返回的所述網頁數據爬取請求對應的數據發送至請求端。
6.根據權利要求5所述的裝置,其特征在于,所述裝置還包括:
第一配置模塊,用于在所述解析接收到的網頁數據爬取請求之前,依據網頁的源文件類型配置所述預設緩存的請求資源類型;其中,所述源文件類型包括:Javascript文件或圖片;
第二配置模塊,用于將所述Javascript文件和/或所述圖片確定為所述預設緩存的請求資源類型。
7.根據權利要求5或6所述的裝置,其特征在于,所述第一判斷模塊包括:
解析單元,用于解析所述網頁數據爬取請求,得到所述網頁數據爬取請求的請求資源類型;
判斷單元,用于依據所述請求資源類型在所述預設緩存的請求資源類型中進行查詢,判斷所述請求資源類型是否與上述預設緩存的請求資源類型相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711053152.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:非法網站自動發掘裝置
- 下一篇:一種基于網頁內容的網頁清洗方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





