[發明專利]網頁抓取請求處理方法、裝置、服務器及存儲介質有效
| 申請號: | 201811566906.4 | 申請日: | 2018-12-19 |
| 公開(公告)號: | CN109635203B | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 劉明 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/95 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 唐述燦 |
| 地址: | 100084 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 抓取 請求 處理 方法 裝置 服務器 存儲 介質 | ||
1.一種網頁抓取請求處理方法,其特征在于,應用于搜索引擎優化服務器,所述方法包括:
接收代理服務器發送的目標網頁抓取請求,所述目標網頁抓取請求為搜索引擎服務器發送的網頁抓取請求中,符合預設白名單的網頁抓取請求,所述網頁抓取請求用于請求返回網頁數據;
根據所述目標網頁抓取請求的特征信息,獲取目標網頁數據,所述目標網頁數據與所述特征信息對應,所述特征信息用于表示發出所述目標網頁抓取請求的所述搜索引擎服務器的數據需求,所述特征信息為從所述目標網頁抓取請求的目標字段中提取到的搜索引擎標識信息或者關鍵字符串,所述關鍵字符串包括資源類型信息和語言類型信息,所述資源類型信息用于指示所述搜索引擎服務器請求獲取的資源類型,所述語言類型信息用于指示所述搜索引擎服務器所支持的語言類型;
通過所述代理服務器,將所述目標網頁數據發送至所述搜索引擎服務器。
2.根據權利要求1所述的網頁抓取請求處理方法,其特征在于,所述根據所述目標網頁抓取請求的特征信息,獲取目標網頁數據包括:
根據所述特征信息,查詢與所述特征信息對應的緩存數據;
當查詢到所述緩存數據時,將所述緩存數據獲取為所述目標網頁數據。
3.根據權利要求1所述的網頁抓取請求處理方法,其特征在于,所述根據所述目標網頁抓取請求的特征信息,獲取目標網頁數據包括:
根據所述特征信息,查詢與所述特征信息對應的緩存數據;
當查詢不到所述緩存數據時,通過配置服務器獲取所述目標網頁數據,所述配置服務器用于為各個特征信息配置對應的網頁數據。
4.根據權利要求3所述的網頁抓取請求處理方法,其特征在于,所述當查詢不到所述緩存數據時,通過配置服務器獲取所述目標網頁數據之后,所述方法還包括:
將所述特征信息緩存為對象鍵名,所述對象鍵名用于指示下一次獲取所述目標網頁數據的索引;
將所述目標網頁數據緩存為對象鍵值,所述對象鍵值用于指示下一次根據所述對象鍵名查詢到的索引內容。
5.根據權利要求3所述的網頁抓取請求處理方法,其特征在于,所述當查詢不到所述緩存數據時,通過配置服務器獲取所述目標網頁數據包括:
每間隔第一預設時長,根據所述特征信息,從所述配置服務器獲取與所述特征信息對應的網頁數據。
6.根據權利要求1所述的網頁抓取請求處理方法,其特征在于,所述根據所述目標網頁抓取請求的特征信息,獲取目標網頁數據包括:
根據所述特征信息,查詢與所述特征信息對應的緩存數據;
當查詢不到所述緩存數據,且接收到配置服務器發送的配置失敗信息時,通過網站服務器獲取所述目標網頁數據,所述配置服務器用于為各個特征信息配置對應的網頁數據,所述配置失敗信息用于指示所述配置服務器沒有為所述特征信息配置對應網頁數據。
7.根據權利要求2至6中任一項權利要求所述的網頁抓取請求處理方法,其特征在于,所述方法還包括:
每間隔第二預設時長,清空各個特征信息所對應的緩存數據。
8.一種網頁抓取請求處理裝置,其特征在于,應用于搜索引擎優化服務器,所述裝置包括:
第一獲取單元,被配置為執行接收代理服務器發送的目標網頁抓取請求,所述目標網頁抓取請求為搜索引擎服務器發送的網頁抓取請求中,符合預設白名單的網頁抓取請求,所述網頁抓取請求用于請求返回網頁數據;
第二獲取單元,被配置為執行根據所述目標網頁抓取請求的特征信息,獲取目標網頁數據,所述目標網頁數據與所述特征信息對應,所述特征信息用于表示發出所述目標網頁抓取請求的所述搜索引擎服務器的數據需求,所述特征信息為從所述目標網頁抓取請求的目標字段中提取到的搜索引擎標識信息或者關鍵字符串,所述關鍵字符串包括資源類型信息和語言類型信息,所述資源類型信息用于指示所述搜索引擎服務器請求獲取的資源類型,所述語言類型信息用于指示所述搜索引擎服務器所支持的語言類型;
發送單元,被配置為執行通過所述代理服務器,將所述目標網頁數據發送至所述搜索引擎服務器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811566906.4/1.html,轉載請聲明來源鉆瓜專利網。





