[發明專利]網頁數據處理方法、裝置、計算機設備和存儲介質在審

申請號：	201910857890.0	申請日：	2019-09-09
公開（公告）號：	CN110781366A	公開（公告）日：	2020-02-11
發明（設計）人：	梅錦振華	申請（專利權）人：	深圳壹賬通智能科技有限公司
主分類號：	G06F16/951	分類號：	G06F16/951
代理公司：	44224 廣州華進聯合專利商標代理有限公司	代理人：	于麗君
地址：	518052 廣東省深圳市前海深港合作區前***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	行為數據爬蟲網頁網頁訪問異常行為數據目標網頁網頁數據處理計算機設備存儲介質訪問數據數據提取特征輸入預設規則訪問檢測申請
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請涉及一種網頁數據處理方法、裝置、計算機設備和存儲介質。所述方法包括：獲取網頁行為數據，根據預設規則檢測網頁行為數據中是否存在異常行為數據；當網頁行為數據中存在異常行為數據時，獲取異常行為數據對應的網頁訪問數據；根據網頁訪問數據提取訪問特征，將訪問特征輸入到已訓練的爬蟲識別模型中，得到爬蟲識別結果；當爬蟲識別結果是網頁訪問數據為爬蟲訪問數據時，得到網頁訪問數據中的爬蟲標識，根據爬蟲標識從網頁行為數據中得到對應的爬蟲網頁行為數據；根據爬蟲網頁行為數據和網頁行為數據得到目標網頁行為數據。采用本方法能夠提高得到目標網頁行為數據的準確性。

技術領域

本申請涉及互聯網技術領域，特別是涉及一種網頁數據處理方法、裝置、計算機設備和存儲介質。

背景技術

隨著互聯網技術的發展，用戶通過互聯網瀏覽網頁頁面的過程中，通過挖掘用戶在網頁中的行為數據，為用戶提供更好的互聯網服務。然而，隨著爬蟲技術的發展，網絡爬蟲越來越泛濫，當網絡爬蟲在爬取互聯網數據時，會模擬用戶行為，比如，模擬用戶登錄，登錄之后爬取數據。從而導致挖掘到的網頁行為數據不夠準確。

發明內容

基于此，有必要針對上述技術問題，提供一種能夠提高得到網頁行為數據準確性的網頁數據處理方法、裝置、計算機設備和存儲介質。

一種網頁數據處理方法，所述方法包括：

獲取網頁行為數據，根據預設規則檢測網頁行為數據中是否存在異常行為數據；

當網頁行為數據中存在異常行為數據時，獲取異常行為數據對應的網頁訪問數據；

根據網頁訪問數據提取訪問特征，將訪問特征輸入到已訓練的爬蟲識別模型中，得到爬蟲識別結果；

當爬蟲識別結果是網頁訪問數據為爬蟲訪問數據時，得到網頁訪問數據中的爬蟲標識，根據爬蟲標識從網頁行為數據中得到對應的爬蟲網頁行為數據；

根據爬蟲網頁行為數據和網頁行為數據得到目標網頁行為數據。