[發明專利]網頁抓取請求處理方法、裝置、服務器及存儲介質有效
| 申請號: | 201811566906.4 | 申請日: | 2018-12-19 |
| 公開(公告)號: | CN109635203B | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 劉明 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/95 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 唐述燦 |
| 地址: | 100084 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 抓取 請求 處理 方法 裝置 服務器 存儲 介質 | ||
本公開是關于一種網頁抓取請求處理方法、裝置、服務器及存儲介質,屬于網絡技術領域。該方法包括:獲取搜索引擎服務器發送的網頁抓取請求;根據所述網頁抓取請求的特征信息,獲取目標網頁數據;將所述目標網頁數據發送至所述搜索引擎服務器。該方法通過網頁抓取請求的特征信息,來有針對性的為搜索引擎服務器獲取目標網頁數據,由于特征信息能夠區分各個搜索引擎服務器,因此,基于該特征信息的獲取,能夠滿足不同搜索引擎服務器的不同數據需求,也即能夠實現對不同的搜索引擎服務器返回定制化的網頁數據。
技術領域
本公開涉及網絡技術領域,尤其涉及一種網頁抓取請求處理方法、裝置、服務器及存儲介質。
背景技術
相關技術中,用戶采用搜索引擎進行搜索時,搜索引擎服務器可以基于用戶的搜索字,返回相應的網頁數據的跳轉鏈接。
在上述過程中,搜索引擎服務器會不定時向各個網站服務器發出網頁抓取請求,以獲取各個網站當前的網頁數據,從而存儲到搜索引擎服務器上以備調用,其中,該網頁抓取請求用于抓取網頁數據。而對各個網站服務器而言,對于各個搜索引擎服務器發送的網頁抓取請求,均會返回相同的網頁數據,不能夠滿足不同搜索引擎服務器的不同數據需求,無法實現搜索引擎服務器的定制化搜索。
發明內容
本公開提供一種網頁抓取請求處理方法、裝置、服務器及存儲介質,能夠滿足不同搜索引擎服務器的不同數據需求,實現搜索引擎服務器的定制化搜索。
根據本公開實施例的第一方面,提供一種網頁抓取請求處理方法,該方法包括:
獲取搜索引擎服務器發送的網頁抓取請求,該網頁抓取請求用于請求返回網頁數據;
根據該網頁抓取請求的特征信息,獲取目標網頁數據,該目標網頁數據與該特征信息對應,該特征信息用于表示發出該網頁抓取請求的搜索引擎服務器的數據需求;
將該目標網頁數據發送至該搜索引擎服務器。
在一種可能實施方式中,根據該網頁抓取請求的特征信息,獲取目標網頁數據包括:
根據該特征信息,查詢與該特征信息對應的緩存數據;
當查詢到該緩存數據時,將該緩存數據獲取為該目標網頁數據。
在一種可能實施方式中,根據該網頁抓取請求的特征信息,獲取目標網頁數據包括:
根據該特征信息,查詢與該特征信息對應的緩存數據;
當查詢不到該緩存數據時,通過配置服務器獲取該目標網頁數據,該配置服務器用于為各個特征信息配置對應的網頁數據。
在一種可能實施方式中,當查詢不到該緩存數據時,通過配置服務器獲取該目標網頁數據之后,該方法還包括:
將該特征信息緩存為對象鍵名,該對象鍵名用于指示下一次獲取該目標網頁數據的索引;
將該目標網頁數據緩存為對象鍵值,該對象鍵值用于指示下一次根據該對象鍵名查詢到的索引內容。
在一種可能實施方式中,當查詢不到該緩存數據時,通過配置服務器獲取該目標網頁數據包括:
每間隔第一預設時長,根據該特征信息,從該配置服務器獲取與該特征信息對應的網頁數據。
在一種可能實施方式中,根據該網頁抓取請求的特征信息,獲取目標網頁數據包括:
根據該特征信息,查詢與該特征信息對應的緩存數據;
當查詢不到該緩存數據,且接收到配置服務器發送的配置失敗信息時,通過網站服務器獲取該目標網頁數據,該配置服務器用于為各個特征信息配置對應的網頁數據,該配置失敗信息用于指示該配置服務器沒有為該特征信息配置對應網頁數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811566906.4/2.html,轉載請聲明來源鉆瓜專利網。





