[發明專利]一種基于機器學習的惡意網絡爬蟲監測和處理方法及系統有效
| 申請號: | 202010193784.X | 申請日: | 2020-03-19 |
| 公開(公告)號: | CN111090802B | 公開(公告)日: | 2020-07-24 |
| 發明(設計)人: | 張鑫明;白冬立 | 申請(專利權)人: | 北京熱云科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06N3/04;G06N3/08 |
| 代理公司: | 北京馳納智財知識產權代理事務所(普通合伙) 11367 | 代理人: | 李佳佳 |
| 地址: | 100102 北京市朝陽區望京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 惡意 網絡 爬蟲 監測 處理 方法 系統 | ||
本發明提供一種基于機器學習的惡意網絡爬蟲監測和處理方法及系統,其中方法包括獲取最原始數據,還包括以下步驟:處理所述最原始數據,并生成數據集;將所述數據集在PSO?BP神經網絡下訓練數據,并建立神經網絡模型;在服務器入口部署配置軟件,把待判斷的數據輸入決策樹和神經網絡模型,判斷鏈接是否為爬蟲鏈接;對所述爬蟲鏈接進行處理。
技術領域
本發明涉及文本詞特征提取的技術領域,特別是一種基于機器學習的惡意網絡爬蟲監測和處理方法及系統。
背景技術
網絡爬蟲,又被稱為網頁蜘蛛,網絡機器人,是一種按照一定的規則,自動地抓取網絡信息的程序或者腳本。其爬行對象從一些種子URL擴充到整個Web,可為門戶站點搜索引擎和大型Web服務提供商提供原始數據。搜索引擎一般是善意的爬蟲,爬取網站的所有頁面,提供給其他用戶進行快速搜索和訪問,給網站帶來流量。然而,如同其他技術,爬蟲也是一把雙刃劍,尤其是近年來“大數據”概念吸引了眾多公司肆意爬取其他公司的數據,惡意爬蟲充斥互聯網,不但不遵守Robots規則對服務器造成了壓力,也不為網站帶來流量,往往通過分析并自行構造參數對非公開接口進行數據爬取或提交,獲取對方本不愿意被大量獲取的數據,給對方服務器性能造成極大損耗。
申請公開號為CN109818949A的發明專利申請公開了一種基于神經網絡的反爬蟲方法,通過部署神經網絡于服務器入口處,可對遠端惡意爬蟲請求中的特征進行識別學習,對惡意爬蟲在空間及時間上的行為特征進行快速高效提取識別;有效檢測通過偽裝的惡意爬蟲,阻止高級爬蟲自動完成驗證碼填寫,降低代理IP或端口被永久封禁的風險,保護服務端數據安全和業務正常有序開展。并且使服務器不易被爬蟲攻破,具有較強安全性和穩定性,同時相對于其他規范固定的反爬蟲機制,可以有效防止誤傷,降低誤傷率,保障系統正常業務運行不受影響。該方法的缺點是只能按照ip處理,無法分析出由于爬蟲代碼使用ip池切換大量ip使爬蟲頻率大大降低而無法識別是否為爬蟲。
發明內容
為了解決上述的技術問題,本發明提出的基于機器學習的惡意網絡爬蟲監測和處理方法及系統,該系統的技術方案分為三部分。第一部分是訓練數據的處理,處理在hadoopYarn框架下進行,該框架能夠解決原hadoop框架處理大數據時出現的單點故障問題,第二部分是訓練數據、生成模型,需要在基于PSO優化的BP神經網絡下進行。該網絡能夠提高BP神經網絡的泛化能力、學習能力,并且大大提升它的收斂速度。第三部分為爬蟲監測處理,監測需要在Flink大數據處理框架下進行。該框架能夠實時處理海量數據。
本發明的第一目的是提供一種基于機器學習的惡意網絡爬蟲監測和處理方法,包括獲取最原始數據,還包括以下步驟:
步驟1:處理所述最原始數據,并生成數據集;
步驟2:將所述數據集在PSO-BP神經網絡下訓練數據,并建立神經網絡模型;
步驟3:在服務器入口部署配置軟件,把待判斷的數據輸入決策樹和神經網絡模型,判斷鏈接是否為爬蟲鏈接;
步驟4:對所述爬蟲鏈接進行處理。
優選的是,所述最原始數據包括訪問IP訪問時攜帶的參數、訪問頻率和該IP訪問平臺的所有不同鏈接中至少一種。
在上述任一方案中優選的是,所述步驟1包括把所述最原始數據中的IP、能夠定位到具體用戶的數據、校驗參數、訪問鏈接和訪問時間分別作為關鍵字,按照一定格式保存為一條數據。
在上述任一方案中優選的是,保存為一定格式的一條數據的處理在hadoop Yarn框架下進行,把處理好的數據按照2:1的比例分為訓練集和測試集。
在上述任一方案中優選的是,所述PSO-BP神經網絡為基于PSO優化的BP神經網絡,將sigmoid激活參數進行改進,公式為:
其中,為激活函數的輸入值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京熱云科技有限公司,未經北京熱云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010193784.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:攝像光學鏡頭
- 下一篇:一種基于語音評測的數據處理系統及方法





