[發(fā)明專利]一種爬蟲數(shù)據(jù)的識別方法、系統(tǒng)及設(shè)備在審
| 申請?zhí)枺?/td> | 202010112134.8 | 申請日: | 2020-02-24 |
| 公開(公告)號: | CN111368163A | 公開(公告)日: | 2020-07-03 |
| 發(fā)明(設(shè)計)人: | 陳志勇;王鳳杰;趙志文 | 申請(專利權(quán))人: | 網(wǎng)宿科技股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F16/958 |
| 代理公司: | 北京華智則銘知識產(chǎn)權(quán)代理有限公司 11573 | 代理人: | 陳剛 |
| 地址: | 200030 上海市徐匯*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 爬蟲 數(shù)據(jù) 識別 方法 系統(tǒng) 設(shè)備 | ||
本發(fā)明公開了一種爬蟲數(shù)據(jù)的識別方法、系統(tǒng)及設(shè)備,其中,所述方法包括:獲取目標網(wǎng)站的站點地圖數(shù)據(jù),并生成所述站點地圖數(shù)據(jù)的向量圖;獲取所述目標網(wǎng)站的會話數(shù)據(jù),并基于所述會話數(shù)據(jù)中包含的請求,將所述會話數(shù)據(jù)映射為所述向量圖中的子圖;為所述會話數(shù)據(jù)添加會話標簽,所述會話標簽用于表征所述會話數(shù)據(jù)是否為爬蟲數(shù)據(jù),并基于所述會話標簽和所述子圖對預(yù)設(shè)分類器進行訓(xùn)練,以得到用于區(qū)分爬蟲數(shù)據(jù)和非爬蟲數(shù)據(jù)的分類器。本申請?zhí)峁┑募夹g(shù)方案,能夠有效地識別出爬蟲數(shù)據(jù)。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種爬蟲數(shù)據(jù)的識別方法、系統(tǒng)及設(shè)備。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)中的信息量也呈爆炸式增長。當前可以采用爬蟲技術(shù),自動獲取網(wǎng)頁內(nèi)容,從而快速地從眾多的信息中篩選出所需信息。在實際應(yīng)用中,爬蟲可以包括搜索引擎類的合法爬蟲,還可能包含非法數(shù)據(jù)采集的惡意爬蟲。為了避免服務(wù)器受到惡意爬蟲的攻擊,需要對訪問數(shù)據(jù)進行甄別,從而篩選出爬蟲數(shù)據(jù)后進行進一步的分析。
目前,可以通過添加UserAgent黑名單、限制IP地址訪問頻率、識別設(shè)備指紋等方式來識別或者限制爬蟲數(shù)據(jù)。然而,維護UserAgent黑名單和IP地址庫需要花費巨大的精力,爬蟲數(shù)據(jù)也可以通過代理IP地址或者修改UserAgent等方式來繞過這些檢測方式,從而導(dǎo)致現(xiàn)有的爬蟲數(shù)據(jù)的識別方法不太有效。
發(fā)明內(nèi)容
本申請的目的在于提供一種爬蟲數(shù)據(jù)的識別方法、系統(tǒng)及設(shè)備,能夠有效地識別出爬蟲數(shù)據(jù)。
為實現(xiàn)上述目的,本申請一方面提供一種爬蟲數(shù)據(jù)的識別方法,所述方法包括:獲取目標網(wǎng)站的站點地圖數(shù)據(jù),并生成所述站點地圖數(shù)據(jù)的向量圖;獲取所述目標網(wǎng)站的會話數(shù)據(jù),并基于所述會話數(shù)據(jù)中包含的請求,將所述會話數(shù)據(jù)映射為所述向量圖中的子圖;為所述會話數(shù)據(jù)添加會話標簽,所述會話標簽用于表征所述會話數(shù)據(jù)是否為爬蟲數(shù)據(jù),并基于所述會話標簽和所述子圖對預(yù)設(shè)分類器進行訓(xùn)練,以得到用于區(qū)分爬蟲數(shù)據(jù)和非爬蟲數(shù)據(jù)的分類器。
為實現(xiàn)上述目的,本申請另一方面還提供一種爬蟲數(shù)據(jù)的識別系統(tǒng),所述系統(tǒng)包括:向量圖生成單元,用于獲取目標網(wǎng)站的站點地圖數(shù)據(jù),并生成所述站點地圖數(shù)據(jù)的向量圖;子圖映射單元,用于獲取所述目標網(wǎng)站的會話數(shù)據(jù),并基于所述會話數(shù)據(jù)中包含的請求,將所述會話數(shù)據(jù)映射為所述向量圖中的子圖;訓(xùn)練單元,用于為所述會話數(shù)據(jù)添加會話標簽,所述會話標簽用于表征所述會話數(shù)據(jù)是否為爬蟲數(shù)據(jù),并基于所述會話標簽和所述子圖對預(yù)設(shè)分類器進行訓(xùn)練,以得到用于區(qū)分爬蟲數(shù)據(jù)和非爬蟲數(shù)據(jù)的分類器。
為實現(xiàn)上述目的,本申請另一方面還提供一種爬蟲數(shù)據(jù)的識別設(shè)備,所述爬蟲數(shù)據(jù)的識別設(shè)備包括處理器和存儲器,所述存儲器用于存儲計算機程序,所述計算機程序被所述處理器執(zhí)行時,實現(xiàn)上述的爬蟲數(shù)據(jù)的識別方法。
由上可見,本申請一個或者多個實施方式提供的技術(shù)方案,可以通過機器學習的方式來識別爬蟲數(shù)據(jù)。具體地,針對待識別的目標網(wǎng)站,可以獲取目標網(wǎng)站的站點地圖數(shù)據(jù)(sitemap),該數(shù)據(jù)通常是XML(eXtensible Markup Language,可擴展標記語言)格式的數(shù)據(jù)。在本申請中,可以將站點地圖數(shù)據(jù)轉(zhuǎn)換為向量圖,從而將XML格式的數(shù)據(jù)轉(zhuǎn)換為圖像數(shù)據(jù)。后續(xù),針對目標網(wǎng)站的會話數(shù)據(jù),可以根據(jù)其中包含的請求,將該會話數(shù)據(jù)映射為向量圖的子圖。該子圖可以表征會話數(shù)據(jù)的訪問方式。由于爬蟲數(shù)據(jù)和非爬蟲數(shù)據(jù)的訪問方式往往不同,因此映射得到的子圖可以用于區(qū)分會話數(shù)據(jù)是否為爬蟲數(shù)據(jù)。然后,利用會話數(shù)據(jù)的會話標簽和映射得到的子圖,可以采用機器學習算法對預(yù)設(shè)分類器進行訓(xùn)練,從而得到用于區(qū)分爬蟲數(shù)據(jù)和非爬蟲數(shù)據(jù)的分類器。本申請的技術(shù)方案,通過將數(shù)據(jù)轉(zhuǎn)換為圖像,從而可以利用圖像作為訓(xùn)練樣本,訓(xùn)練出精準的分類器。后續(xù),該分類器可以預(yù)測輸入的會話數(shù)據(jù)是否為爬蟲數(shù)據(jù)。可見,本申請?zhí)峁┑募夹g(shù)方案,能夠通過訓(xùn)練得到的分類器精確、高效地預(yù)測出出會話數(shù)據(jù)是否為爬蟲數(shù)據(jù)。
附圖說明
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于網(wǎng)宿科技股份有限公司,未經(jīng)網(wǎng)宿科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010112134.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 檢測反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計算機設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





