[發明專利]一種大數據防爬蟲處理方法及云平臺系統有效
| 申請號: | 202110306214.1 | 申請日: | 2021-03-23 |
| 公開(公告)號: | CN112866295B | 公開(公告)日: | 2021-10-01 |
| 發明(設計)人: | 黃超 | 申請(專利權)人: | 上海新諍信知識產權服務股份有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06N3/04;G06N3/08 |
| 代理公司: | 北京酷愛智慧知識產權代理有限公司 11514 | 代理人: | 王海文 |
| 地址: | 200000 上海市浦東新區中國*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 爬蟲 處理 方法 平臺 系統 | ||
1.一種大數據防爬蟲處理方法,其特征在于,應用于與大數據業務用戶終端通信的大數據云服務器,所述方法包括:
獲得初始業務操作數據集以及初始業務響應數據集;
利用所述初始業務操作數據集訓練設定業務操作識別網絡,得到完成訓練的業務操作識別網絡;通過所述完成訓練的業務操作識別網絡對所述初始業務響應數據集進行業務操作識別,得到初始業務畫像數據集;
利用所述初始業務畫像數據集訓練設定的針對大數據云服務器的實時網絡爬蟲監測網絡,得到完成訓練的針對大數據云服務器的實時網絡爬蟲監測網絡;
基于設定網絡訓練條件以及所述完成訓練的針對大數據云服務器的實時網絡爬蟲監測網絡訓練設定的針對大數據業務用戶終端的實時網絡爬蟲監測網絡,得到完成訓練的針對大數據業務用戶終端的實時網絡爬蟲監測網絡;
將完成訓練的針對大數據業務用戶終端的實時網絡爬蟲監測網絡下發至所述大數據業務用戶終端,通過所述大數據業務用戶終端以及所述完成訓練的針對大數據業務用戶終端的實時網絡爬蟲監測網絡對待監測業務互動事項進行網絡爬蟲監測得到網絡爬蟲監測結果,并基于所述網絡爬蟲監測結果確定所述待監測業務互動事項的網絡爬蟲防護策略;
其中,通過所述大數據業務用戶終端以及所述完成訓練的針對大數據業務用戶終端的實時網絡爬蟲監測網絡對待監測業務互動事項進行網絡爬蟲監測得到網絡爬蟲監測結果,并基于所述網絡爬蟲監測結果確定所述待監測業務互動事項的網絡爬蟲防護策略,包括:使所述大數據業務用戶終端基于所述完成訓練的針對大數據業務用戶終端的實時網絡爬蟲監測網絡提取待監測業務互動事項的目標互動狀態對應的局部業務互動事項;其中,所述目標互動狀態是所述待監測業務互動事項未被大數據云服務器記錄的互動狀態;獲得所述大數據業務用戶終端上傳的所述局部業務互動事項;在預存互動事項集中檢索與所述局部業務互動事項匹配的目標網絡爬蟲防護策略,將所述目標網絡爬蟲防護策略確定為所述待監測業務互動事項的網絡爬蟲防護策略。
2.根據權利要求1所述的方法,其特征在于,在預存互動事項集中檢索與所述局部業務互動事項匹配的目標網絡爬蟲防護策略,包括:
對所述局部業務互動事項進行互動事項特征識別,得到多個互動事項特征內容;獲得多個互動事項特征內容的特征內容行為畫像數據,以及所述多個互動事項特征內容在當前網絡爬蟲監測狀態之前的y個不間斷的網絡爬蟲監測狀態對應的y個歷史互動事項特征內容集合,其中,每一網絡爬蟲監測狀態的歷史互動事項特征內容集合包括所述互動事項特征內容在多個實時業務狀態類別下的歷史互動事項特征內容;
分別獲得各互動事項特征內容的y個歷史互動事項特征內容集合中每一歷史互動事項特征內容集合對應的事項安全等級偏差集合;其中,每一事項安全等級偏差集合包括所述互動事項特征內容在多個實時業務狀態類別下的事項安全等級偏差,每一事項安全等級偏差表示一個實時業務狀態類別下實時事項安全等級與參考事項安全等級之間的比對結果;
利用已訓練的事項安全等級修復網絡,根據各互動事項特征內容的特征內容行為畫像數據與y個歷史互動事項特征內容集合對應的y個事項安全等級偏差集合,獲得各互動事項特征內容在當前網絡爬蟲監測狀態的事項安全等級偏差;其中,所述事項安全等級修復網絡是利用多個網絡訓練樣本訓練得到的,每一網絡訓練樣本包括一個互動事項特征內容的特征內容行為畫像數據以及y+1個不間斷的網絡爬蟲監測狀態的事項安全等級偏差集合;所述事項安全等級偏差表示互動事項特征內容的實時事項安全等級與參考事項安全等級之間的比對結果;
通過各互動事項特征內容在當前網絡爬蟲監測狀態的事項安全等級偏差分別對各互動事項特征內容的實時事項安全等級進行修復;根據各互動事項特征內容修復后的實時事項安全等級,從所述多個互動事項特征內容中確定目標互動事項特征內容,根據所述目標互動事項特征內容對所述局部業務互動事項進行互動事項整理,得到用于進行網絡爬蟲匹配的待匹配互動事項;
在預存互動事項集中檢索與所述待匹配互動事項的相關性系數最小的預存業務互動事項,并確定與所述預存業務互動事項的全局網絡爬蟲防護策略為所述局部業務互動事項匹配的目標網絡爬蟲防護策略;
其中,所述事項安全等級修復網絡是通過如下訓練過程訓練得到的:從網絡訓練樣本數據庫中獲得預設數量個的網絡訓練樣本;通過獲得的網絡訓練樣本,按照設定的網絡模型訓練參數對所述事項安全等級修復網絡進行多輪訓練,每一輪訓練過程包括如下步驟:
根據所述特征內容行為畫像數據以及y+1個不間斷的網絡爬蟲監測狀態中前y個網絡爬蟲監測狀態的事項安全等級偏差集合,通過所述事項安全等級修復網絡,獲得每一網絡訓練樣本的互動事項特征內容在第y+1個網絡爬蟲監測狀態的事項安全等級偏差;
根據所述網絡訓練樣本的互動事項特征內容在第y+1個網絡爬蟲監測狀態的事項安全等級偏差,與所述網絡訓練樣本中第y+1個網絡爬蟲監測狀態的事項安全等級偏差集合,獲得所述事項安全等級修復網絡的網絡性能評價條件;
根據所述網絡性能評價條件確定是否繼續對所述事項安全等級修復網絡進行訓練;若確定繼續對所述事項安全等級修復網絡進行訓練,則對所述事項安全等級修復網絡的模型網絡參數進行調整,并通過調整后的所述事項安全等級修復網絡繼續下一次訓練過程;
其中,所述事項安全等級修復網絡包括互動事項時序網絡層和互動事項安全網絡層,則針對每一互動事項特征內容,利用事項安全等級修復網絡獲得事項安全等級偏差,包括:
根據所述y個事項安全等級偏差集合,通過所述互動事項時序網絡層獲得互動事項特征內容的互動事項時序條件;
根據所述特征內容行為畫像數據,通過所述互動事項安全網絡層獲得互動事項特征內容的互動事項安全條件;
基于所述互動事項時序網絡層和所述互動事項安全網絡層的網絡關聯數據,根據所述互動事項時序條件和所述互動事項安全條件得到在當前網絡爬蟲監測狀態的事項安全等級偏差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海新諍信知識產權服務股份有限公司,未經上海新諍信知識產權服務股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110306214.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種氣吹連接器
- 下一篇:一種用于治療接觸性皮炎的制劑
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





