[發明專利]網頁數據處理方法、裝置、計算機設備和存儲介質在審
| 申請號: | 201910857890.0 | 申請日: | 2019-09-09 |
| 公開(公告)號: | CN110781366A | 公開(公告)日: | 2020-02-11 |
| 發明(設計)人: | 梅錦振華 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 44224 廣州華進聯合專利商標代理有限公司 | 代理人: | 于麗君 |
| 地址: | 518052 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 行為數據 爬蟲 網頁 網頁訪問 異常行為數據 目標網頁 網頁數據處理 計算機設備 存儲介質 訪問數據 數據提取 特征輸入 預設規則 訪問 檢測 申請 | ||
本申請涉及一種網頁數據處理方法、裝置、計算機設備和存儲介質。所述方法包括:獲取網頁行為數據,根據預設規則檢測網頁行為數據中是否存在異常行為數據;當網頁行為數據中存在異常行為數據時,獲取異常行為數據對應的網頁訪問數據;根據網頁訪問數據提取訪問特征,將訪問特征輸入到已訓練的爬蟲識別模型中,得到爬蟲識別結果;當爬蟲識別結果是網頁訪問數據為爬蟲訪問數據時,得到網頁訪問數據中的爬蟲標識,根據爬蟲標識從網頁行為數據中得到對應的爬蟲網頁行為數據;根據爬蟲網頁行為數據和網頁行為數據得到目標網頁行為數據。采用本方法能夠提高得到目標網頁行為數據的準確性。
技術領域
本申請涉及互聯網技術領域,特別是涉及一種網頁數據處理方法、裝置、計算機設備和存儲介質。
背景技術
隨著互聯網技術的發展,用戶通過互聯網瀏覽網頁頁面的過程中,通過挖掘用戶在網頁中的行為數據,為用戶提供更好的互聯網服務。然而,隨著爬蟲技術的發展,網絡爬蟲越來越泛濫,當網絡爬蟲在爬取互聯網數據時,會模擬用戶行為,比如,模擬用戶登錄,登錄之后爬取數據。從而導致挖掘到的網頁行為數據不夠準確。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠提高得到網頁行為數據準確性的網頁數據處理方法、裝置、計算機設備和存儲介質。
一種網頁數據處理方法,所述方法包括:
獲取網頁行為數據,根據預設規則檢測網頁行為數據中是否存在異常行為數據;
當網頁行為數據中存在異常行為數據時,獲取異常行為數據對應的網頁訪問數據;
根據網頁訪問數據提取訪問特征,將訪問特征輸入到已訓練的爬蟲識別模型中,得到爬蟲識別結果;
當爬蟲識別結果是網頁訪問數據為爬蟲訪問數據時,得到網頁訪問數據中的爬蟲標識,根據爬蟲標識從網頁行為數據中得到對應的爬蟲網頁行為數據;
根據爬蟲網頁行為數據和網頁行為數據得到目標網頁行為數據。
在其中一個實施例中,獲取網頁行為數據,根據預設規則檢測網頁行為數據中是否存在異常行為數據,包括:
獲取第一時間段對應的第一網頁行為數據和第二時間段對應的第二網頁行為數據,根據第一網頁行為數據和第二網頁行為數據得到增量行為數據;
當增量行為數據超過預設增量行為數據時,第二時間段對應的第二網頁行為數據為異常行為數據。
在其中一個實施例中,獲取網頁行為數據,根據預設規則檢測網頁行為數據中是否存在異常行為數據,包括:
獲取各個歷史時間段的網頁行為數據,根據各個歷史時間段的網頁行為數據計算得到歷史數據增長率;
獲取目標時間段的網頁行為數據,根據目標時間段的網頁行為數據計算得到目標數據增長率,比較目標數據增長率和歷史數據增長率;
當目標數據增長率超過歷史數據增長率時,目標時間段的網頁行為數據為異常行為數據。
在其中一個實施例中,在根據爬蟲網頁行為數據和網頁行為數據得到目標網頁行為數據之后,還包括:
將爬蟲標識和爬蟲標識對應的網頁訪問數據關聯存儲到預設黑名單數據庫;
則在當網頁行為數據存在異常行為數據時,獲取異常行為數據對應的網頁訪問數據之后,還包括:
獲取網頁訪問數據中的訪問標識,在預設黑名單數據庫中查找訪問標識;
當預設黑名單數據庫中存在訪問標識時,根據訪問標識從網頁行為數據中得到對應的爬蟲網頁行為數據。
在其中一個實施例中,已訓練的爬蟲識別模型的生成步驟,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910857890.0/2.html,轉載請聲明來源鉆瓜專利網。





