[發明專利]一種基于圖神經網絡的網絡爬蟲檢測方法、系統及裝置在審
| 申請號: | 202010573565.4 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111858929A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 洪鎮宇;黃梅芬 | 申請(專利權)人: | 網宿科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04;G06N3/08;H04L12/26 |
| 代理公司: | 北京華智則銘知識產權代理有限公司 11573 | 代理人: | 陳剛 |
| 地址: | 200030 上海市徐匯*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 網絡 爬蟲 檢測 方法 系統 裝置 | ||
1.一種基于圖神經網絡的網絡爬蟲檢測方法,其特征在于,所述方法包括:
獲取網絡會話樣本,所述網絡會話樣本中包括訪問的各個資源;
提取所述網絡會話樣本中各個所述資源的資源特征,所述資源特征包括所述資源在網站中體現的固有特征和/或用戶訪問所述資源的會話特征;
基于提取的所述資源特征,構建所述網絡會話樣本的資源圖,并利用預設圖算法對構建的所述資源圖進行訓練,以通過訓練得到的分類模型檢測網絡爬蟲。
2.根據權利要求1所述的方法,其特征在于,獲取網絡會話樣本包括:
獲取目標網站的當前網絡會話,并解析所述當前網絡會話中包含的各個候選資源;
根據所述目標網站的業務需求,從所述各個候選資源中選擇目標資源,并將選擇的所述目標資源作為網絡會話樣本中包含的資源。
3.根據權利要求1所述的方法,其特征在于,所述固有特征至少包括資源標識,所述固有特征還包括資源的訪問熱度、資源的內容類型、資源的信息量、資源的功能屬性中的一種;所述會話特征包括資源訪問間隔時長、資源或者頁面的停留時長、網絡會話中的訪問序列、用戶權項的變化情況、資源訪問次數中的一種。
4.根據權利要求1或3所述的方法,其特征在于,在提取所述網絡會話樣本中各個所述資源的資源特征之后,所述方法還包括:
識別所述資源特征的數值類型,若所述數值類型表征連續型數據,對所述資源特征進行標準化和歸一化處理;若所述數值類型表征離散型數據,將所述資源特征轉換為特征向量。
5.根據權利要求4所述的方法,其特征在于,在將所述資源特征轉換為特征向量時,若對所述資源特征進行標簽編碼,將標簽編碼后的數據通過嵌入層轉換為特征向量。
6.根據權利要求1所述的方法,其特征在于,構建所述網絡會話樣本的資源圖包括:
在所述網絡會話樣本中確定主要資源和輔助資源,并生成所述主要資源相對應的主節點;
確定所述輔助資源的表現形式,并在待構建的資源圖中生成與所述表現形式相匹配的內容;
在所述待構建的資源圖中添加節點邊,以構建所述網絡會話樣本的資源圖。
7.根據權利要求6所述的方法,其特征在于,生成所述主要資源相對應的主節點包括:
若所述網絡會話樣本中包括多個重復的目標主要資源,針對重復的所述目標主要資源,僅生成一個對應的主節點;
或者
若所述網絡會話樣本中包括多個重復的目標主要資源,針對每個重復的所述目標主要資源,分別生成對應的主節點。
8.根據權利要求6或7所述的方法,其特征在于,在生成所述主要資源相對應的主節點之后,所述方法還包括:
判斷所述主要資源在待建構的資源圖中是否具備唯一性,若具備唯一性,在所述主要資源對應的主節點中添加所述主要資源的固有特征,并添加會話特征中表征累計量的會話特征;
若不具備唯一性,在所述主要資源對應的主節點中添加所述主要資源的固有特征,并添加會話特征中表征用戶操作行為的會話特征。
9.根據權利要求6所述的方法,其特征在于,生成與所述表現形式相匹配的內容包括:
若所述輔助資源的表現形式為附屬形式,確定與所述輔助資源同時觸發的目標主要資源,并將所述輔助資源的資源特征作為附屬特征,添加至所述目標主要資源的主節點中。
10.根據權利要求6所述的方法,其特征在于,生成與所述表現形式相匹配的內容包括:
若所述輔助資源的表現形式為主節點形式,生成所述輔助資源對應的主節點;若所述輔助資源的表現形式為副節點形式,生成所述輔助資源對應的副節點,并將所述副節點連接至與所述輔助資源同時觸發的主要資源的主節點上。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網宿科技股份有限公司,未經網宿科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010573565.4/1.html,轉載請聲明來源鉆瓜專利網。





