[發明專利]一種基于半監督的反爬蟲系統及設計方法有效
| 申請號: | 202010655940.X | 申請日: | 2020-07-09 |
| 公開(公告)號: | CN111914905B | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 簡軍;高熙;蔡月月 | 申請(專利權)人: | 北京人人云圖信息技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F21/56;G06N20/00 |
| 代理公司: | 北京中創云知識產權代理事務所(普通合伙) 11837 | 代理人: | 肖佳 |
| 地址: | 100191 北京市海淀區北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 爬蟲 系統 設計 方法 | ||
1.一種基于半監督的反爬蟲系統設計方法,其特征在于,包括以下步驟:
A1:衍生特征向量;基于請求數據衍生出需要的特征向量,所述特征向量包含請求的參數特征和行為特征;具體包括:
從請求數據中提取請求時段,次數,時間間隔,請求內容,訪問路徑集合,請求中的cookie,UserAgent和headers所包含的信息;
對這些原始的信息進行數據的衍生,在衍生的過程中將特征區分為用戶維度和訪問維度,用戶維度包含用戶設備、指紋和ip,能夠粗略的標識不同用戶的維度;訪問維度包含請求的url、請求的時間、cookie、UserAgent和referer;
將用戶維度和訪問維度交叉組合,聚類衍生,得到數百個衍生的維度;
計算衍生的維度的提升度,根據提升度的分布選擇篩選維度的閾值,篩出有效的維度特征;
A2:無監督聚類成簇;通過無監督聚類算法對請求行為聚類得到不同的簇,簇內間距低于設定的第一閾值,簇與簇之間的間距高于設定的第二閾值;無監督聚類算法包括Kmeans、PCA或TSNE中的至少一種;
A3:專家規則評估;基于現有數據和專家經驗,制定符合指標要求的專家規則;通過專家規則對不同的簇行為計算爬蟲概率;爬蟲概率高于設定的第三閾值的行為,經過觀察,轉化為專家規則;
A4:強化規則;對于概率在設定范圍內的請求行為,作為有監督的機器學習的輸入維度進行訓練和預測;
A5:機器學習;
A6:輸出識別爬蟲概率結果。
2.根據權利要求1所述的一種基于半監督的反爬蟲系統設計方法,其特征在于,所述步驟A2中的無監督聚類算法包括Kmeans、PCA或TSNE中的至少一種,所述步驟A2的具體過程為:
先排查異常點進行,異常點包含不符合業務邏輯或不符合數據分布的點;
采用融合聚類方法,融合采用投票方式,通過遍歷簇的個數,尋找輪廓系數最接近1的分類結果,且分類結果需要滿足在兩種以上的聚類算法中,有更多的點的簇類別保持一致。
3.根據權利要求1所述的一種基于半監督的反爬蟲系統設計方法,其特征在于,所述步驟A3的具體過程為:
通過數據分析和反爬專家經驗制定專家規則;
以專家規則為標準來計算簇的爬蟲概率;
根據各類簇的概率分布設定第三閾值,爬蟲概率高于第三閾值的簇,進行輪廓行為的提取,輪廓行為提取是使用最少的特征維度保證最多的簇內點落在此輪廓行為里;
篩選穩定性較高的爬蟲輪廓行為,取不同的時間窗口進行psi的穩定性計算,對于不穩定的輪廓行為保存下來后面的系統中再用;對于穩定的輪廓行為做準確,召回和誤殺指標的觀察,經過觀察,符合專家規則的指標要求則轉化為專家規則,不符合專家規則的指標要求則保存下來后面再用。
4.根據權利要求1所述的一種基于半監督的反爬蟲系統設計方法,其特征在于,所述步驟A5的機器學習的處理算法包括決策樹、隨機森林或xgboost中的至少一種。
5.根據權利要求1所述的一種基于半監督的反爬蟲系統設計方法,其特征在于,所述步驟A6得到的識別爬蟲概率結果由高維的機器學習系統和低維的規則系統綜合得到,具體過程為:將步驟A5的輸出結果和步驟A3得到的五十條專家規則作為步驟A6的輸入,用邏輯回歸的模型學習最佳權重參數,得到綜合的精準的爬蟲概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京人人云圖信息技術有限公司,未經北京人人云圖信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010655940.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種含鈦H型鋼冶煉用合成渣及其制備方法
- 下一篇:一種豬眼球的角膜切割裝置





