[發(fā)明專利]一種爬蟲識別模型訓(xùn)練、爬蟲識別方法、裝置、系統(tǒng)、設(shè)備及介質(zhì)有效
| 申請?zhí)枺?/td> | 202010114046.1 | 申請日: | 2020-02-24 |
| 公開(公告)號: | CN111368164B | 公開(公告)日: | 2023-05-09 |
| 發(fā)明(設(shè)計)人: | 宗志遠(yuǎn) | 申請(專利權(quán))人: | 支付寶(杭州)信息技術(shù)有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F18/214;G06F18/241;G06F21/62 |
| 代理公司: | 北京晉德允升知識產(chǎn)權(quán)代理有限公司 11623 | 代理人: | 王戈 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 爬蟲 識別 模型 訓(xùn)練 方法 裝置 系統(tǒng) 設(shè)備 介質(zhì) | ||
1.一種爬蟲識別模型訓(xùn)練方法,包括:
確定指向預(yù)設(shè)隱私數(shù)據(jù)的目標(biāo)行為數(shù)據(jù)以及所述目標(biāo)行為數(shù)據(jù)對應(yīng)的目標(biāo)行為鏈路,從所述目標(biāo)行為鏈路中確定第一數(shù)量個第一爬蟲鏈路,將所述第一數(shù)量個第一爬蟲鏈路作為第一類標(biāo)記樣本;
確定第二數(shù)量個第二爬蟲鏈路,將所述第二數(shù)量個第二爬蟲鏈路作為第二類標(biāo)記樣本;其中,所述第二爬蟲鏈路的確定方式異于所述第一爬蟲鏈路;
確定第三數(shù)量個未標(biāo)記網(wǎng)絡(luò)行為鏈路,將所述第三數(shù)量個未標(biāo)記網(wǎng)絡(luò)行為鏈路作為未標(biāo)記類樣本;
基于所述第一類標(biāo)記樣本、第二類標(biāo)記樣本以及未標(biāo)記類樣本進(jìn)行半監(jiān)督學(xué)習(xí)的模型訓(xùn)練,得到爬蟲識別模型。
2.如權(quán)利要求1所述的方法,確定目標(biāo)行為數(shù)據(jù)對應(yīng)的目標(biāo)行為鏈路包括:
對所述目標(biāo)行為數(shù)據(jù)進(jìn)行分類;
對任一類目標(biāo)行為數(shù)據(jù),將該類中目標(biāo)行為數(shù)據(jù)進(jìn)行排序,根據(jù)排序結(jié)果確定該類目標(biāo)行為數(shù)據(jù)對應(yīng)的目標(biāo)行為鏈路。
3.根據(jù)權(quán)利要求1所述的方法,從所述目標(biāo)行為鏈路中確定第一爬蟲鏈路包括:
將各個目標(biāo)行為鏈路進(jìn)行聚合,得到聚合結(jié)果;
將各個目標(biāo)行為鏈路的聚合結(jié)果進(jìn)行對比,將對比結(jié)果滿足預(yù)設(shè)條件的目標(biāo)行為鏈路作為第一爬蟲鏈路。
4.根據(jù)權(quán)利要求3所述的方法,將各個目標(biāo)行為鏈路進(jìn)行聚合,得到聚合結(jié)果包括:
對任一目標(biāo)行為鏈路,將該目標(biāo)行為鏈路對應(yīng)的目標(biāo)行為數(shù)據(jù)進(jìn)行排序;
將該目標(biāo)行為鏈路排序后的目標(biāo)行為數(shù)據(jù)進(jìn)行拼接,將拼接結(jié)果作為該目標(biāo)行為鏈路的聚合結(jié)果。
5.根據(jù)權(quán)利要求3所述的方法,所述預(yù)設(shè)條件為:
對任一目標(biāo)行為鏈路,與該目標(biāo)行為鏈路相似度大于相似度閾值的目標(biāo)行為鏈路數(shù)量大于預(yù)定數(shù)量。
6.如權(quán)利要求1所述的方法,所述第三數(shù)量大于所述第一數(shù)量;
和/或,
所述第三數(shù)量大于所述第二數(shù)量。
7.一種爬蟲識別方法,包括:
接收網(wǎng)絡(luò)請求;
通過爬蟲識別模型對所述網(wǎng)絡(luò)請求進(jìn)行爬蟲識別,確定爬蟲識別結(jié)果,所述爬蟲識別模型根據(jù)權(quán)利要求1至6中任一項所述的方法得到。
8.根據(jù)權(quán)利要求7所述的識別方法,確定所述爬蟲識別結(jié)果后,還包括:
確定與所述爬蟲識別結(jié)果對應(yīng)的反饋信息,所述反饋信息包括高危信息、中危信息和低危信息;
當(dāng)所述反饋信息為高危信息時,攔截所述網(wǎng)絡(luò)請求;
當(dāng)所述反饋信息為中危信息時,對所述網(wǎng)絡(luò)請求進(jìn)行二次校驗;
當(dāng)所述反饋信息為低危信息時,放行所述網(wǎng)絡(luò)請求。
9.根據(jù)權(quán)利要求8所述的識別方法,所述二次校驗包括滑動驗證和/或選字驗證和/或計算結(jié)果驗證;
若二次校驗不通過,則攔截所述網(wǎng)絡(luò)請求。
10.根據(jù)權(quán)利要求7所述的識別方法,確定所述爬蟲識別結(jié)果后,還包括:
更新標(biāo)記樣本;
基于更新后的標(biāo)記樣本進(jìn)行半監(jiān)督學(xué)習(xí)的模型訓(xùn)練,得到更新后的爬蟲識別模型。
11.根據(jù)權(quán)利要求10所述的識別方法,所述更新標(biāo)記樣本包括:
將所述爬蟲識別模型識別出的爬蟲鏈路作為新標(biāo)記樣本,用于訓(xùn)練爬蟲識別模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于支付寶(杭州)信息技術(shù)有限公司,未經(jīng)支付寶(杭州)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010114046.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 檢測反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機(jī)管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計算機(jī)設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)





