[發(fā)明專利]一種基于半監(jiān)督的反爬蟲系統(tǒng)及設(shè)計(jì)方法有效
| 申請?zhí)枺?/td> | 202010655940.X | 申請日: | 2020-07-09 |
| 公開(公告)號: | CN111914905B | 公開(公告)日: | 2021-07-20 |
| 發(fā)明(設(shè)計(jì))人: | 簡軍;高熙;蔡月月 | 申請(專利權(quán))人: | 北京人人云圖信息技術(shù)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F21/56;G06N20/00 |
| 代理公司: | 北京中創(chuàng)云知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11837 | 代理人: | 肖佳 |
| 地址: | 100191 北京市海淀區(qū)北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 監(jiān)督 爬蟲 系統(tǒng) 設(shè)計(jì) 方法 | ||
本發(fā)明公開了一種基于半監(jiān)督的反爬蟲系統(tǒng)及設(shè)計(jì)方法,包括衍生特征向量,無監(jiān)督聚類成簇,專家規(guī)則評估,強(qiáng)化規(guī)則,機(jī)器學(xué)習(xí),輸出識別爬蟲概率結(jié)果;通過無監(jiān)督算法對請求行為進(jìn)行聚類得到不同的簇;通過專家規(guī)則對不同的簇行為進(jìn)行爬蟲概率計(jì)算;對于概率高于某個閾值的行為添加到規(guī)則系統(tǒng)里;對于概率在某個閾值范圍的行為作為維度送進(jìn)機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行訓(xùn)練和預(yù)測,能夠解決爬蟲行為多變的問題并提高防護(hù)性能,降低誤殺風(fēng)險。
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)、網(wǎng)絡(luò)數(shù)據(jù)安全和數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種基于半監(jiān)督的反爬蟲系統(tǒng)及設(shè)計(jì)方法。
背景技術(shù)
大數(shù)據(jù)時代,網(wǎng)絡(luò)爬蟲的現(xiàn)象與日俱增,網(wǎng)絡(luò)爬蟲的形式和方法也是千變?nèi)f化,有的按照一定的規(guī)則,自動的抓取網(wǎng)頁信息,還有的人為爬取一些用戶信息來用于商業(yè)用途。如此一來,肆意爬取給服務(wù)器造成了很大的壓力,而且不能給該網(wǎng)站帶來新的用戶,造成了很多成本的浪費(fèi)。于是,反爬蟲也越來越受到嚴(yán)峻的挑戰(zhàn)。而現(xiàn)有反爬方法通常采用的分析url路徑,User-Agent,hearders,cookie等字段以及流量統(tǒng)計(jì)來制定規(guī)則做決策,這樣的方式雖然可以起到一定的效果,但是隨著爬取方式的變化,這種反爬蟲方法不能及時發(fā)現(xiàn),仍然不能起到有效的防護(hù)。
發(fā)明內(nèi)容
為了解決上述已有技術(shù)存在的不足,針對變化的爬蟲行為進(jìn)行及時發(fā)現(xiàn)和確定,做到精準(zhǔn)的防護(hù)。本發(fā)明提出一種基于半監(jiān)督的反爬蟲系統(tǒng)及設(shè)計(jì)方法。本發(fā)明的具體技術(shù)方案如下:
一種基于半監(jiān)督的反爬蟲系統(tǒng)設(shè)計(jì)方法,其特征在于,包括以下步驟:
A1:衍生特征向量;基于請求數(shù)據(jù)衍生出需要的特征向量,所述特征向量包含請求的參數(shù)特征和行為特征;
A2:無監(jiān)督聚類成簇;通過無監(jiān)督聚類算法對請求行為聚類得到不同的簇,簇內(nèi)間距低于設(shè)定的第一閾值,簇與簇之間的間距高于設(shè)定的第二閾值;無監(jiān)督聚類算法包括Kmeans、PCA或TSNE中的至少一種;
A3:專家規(guī)則評估;基于現(xiàn)有數(shù)據(jù)和專家經(jīng)驗(yàn),制定符合指標(biāo)要求的專家規(guī)則;通過專家規(guī)則對不同的簇行為計(jì)算爬蟲概率;爬蟲概率高于設(shè)定的第三閾值的行為,經(jīng)過觀察,轉(zhuǎn)化為專家規(guī)則;
A4:強(qiáng)化規(guī)則;對于概率在設(shè)定范圍內(nèi)的請求行為,作為有監(jiān)督的機(jī)器學(xué)習(xí)的輸入維度進(jìn)行訓(xùn)練和預(yù)測;
A5:機(jī)器學(xué)習(xí);
A6:輸出識別爬蟲概率結(jié)果;
進(jìn)一步地,所述步驟A1的具體過程為:
從請求數(shù)據(jù)中提取請求時段,次數(shù),時間間隔,請求內(nèi)容,訪問路徑集合,請求中的cookie,UserAgent和headers所包含的信息;
對這些原始的信息進(jìn)行數(shù)據(jù)的衍生,在衍生的過程中將特征區(qū)分為用戶維度和訪問維度,用戶維度包含用戶設(shè)備、指紋和ip,能夠粗略的標(biāo)識不同用戶的維度;訪問維度包含請求的url、請求的時間、cookie、UserAgent和referer;
將用戶維度和訪問維度交叉組合,聚類衍生,得到數(shù)百個衍生的維度;
計(jì)算衍生的維度的提升度,根據(jù)提升度的分布選擇篩選維度的閾值,篩出有效的維度特征。
進(jìn)一步地,所述步驟A2中的無監(jiān)督聚類算法包括Kmeans、PCA或TSNE中的至少一種,所述步驟A2的具體過程為:
先排查異常點(diǎn)進(jìn)行,異常點(diǎn)包含不符合業(yè)務(wù)邏輯或不符合數(shù)據(jù)分布的點(diǎn);
采用融合聚類方法,融合采用投票方式,通過遍歷簇的個數(shù),尋找輪廓系數(shù)最接近1的分類結(jié)果,且分類結(jié)果需要滿足在兩種以上的聚類算法中,有更多的點(diǎn)的簇類別保持一致。例如:假設(shè)分為兩類簇,用三種聚類算法進(jìn)行投票,對于第一種分類結(jié)果,90%的點(diǎn)的簇類別沒有發(fā)生變化,對于第二種分類結(jié)果,80%的點(diǎn)的簇類別沒有發(fā)生變化,那么認(rèn)為第一種分類結(jié)果更穩(wěn)定可靠。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京人人云圖信息技術(shù)有限公司,未經(jīng)北京人人云圖信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010655940.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種含鈦H型鋼冶煉用合成渣及其制備方法
- 下一篇:一種豬眼球的角膜切割裝置
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法
- 檢測反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機(jī)管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計(jì)算機(jī)設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)





