[發(fā)明專利]一種爬蟲數(shù)據(jù)的識別方法、系統(tǒng)及設(shè)備在審
| 申請?zhí)枺?/td> | 202010112134.8 | 申請日: | 2020-02-24 |
| 公開(公告)號: | CN111368163A | 公開(公告)日: | 2020-07-03 |
| 發(fā)明(設(shè)計(jì))人: | 陳志勇;王鳳杰;趙志文 | 申請(專利權(quán))人: | 網(wǎng)宿科技股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F16/958 |
| 代理公司: | 北京華智則銘知識產(chǎn)權(quán)代理有限公司 11573 | 代理人: | 陳剛 |
| 地址: | 200030 上海市徐匯*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 爬蟲 數(shù)據(jù) 識別 方法 系統(tǒng) 設(shè)備 | ||
1.一種爬蟲數(shù)據(jù)的識別方法,其特征在于,所述方法包括:
獲取目標(biāo)網(wǎng)站的站點(diǎn)地圖數(shù)據(jù),并生成所述站點(diǎn)地圖數(shù)據(jù)的向量圖;
獲取所述目標(biāo)網(wǎng)站的會話數(shù)據(jù),并基于所述會話數(shù)據(jù)中包含的請求,將所述會話數(shù)據(jù)映射為所述向量圖中的子圖;
為所述會話數(shù)據(jù)添加會話標(biāo)簽,所述會話標(biāo)簽用于表征所述會話數(shù)據(jù)是否為爬蟲數(shù)據(jù),并基于所述會話標(biāo)簽和所述子圖對預(yù)設(shè)分類器進(jìn)行訓(xùn)練,以得到用于區(qū)分爬蟲數(shù)據(jù)和非爬蟲數(shù)據(jù)的分類器。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,生成所述站點(diǎn)地圖數(shù)據(jù)的向量圖包括:
識別所述站點(diǎn)地圖數(shù)據(jù)中包含的各個(gè)訪問鏈接,并基于各個(gè)所述訪問鏈接之間的跳轉(zhuǎn)關(guān)系,確定各個(gè)所述訪問鏈接對應(yīng)的節(jié)點(diǎn)位置;
將包含各個(gè)所述節(jié)點(diǎn)位置的圖像作為所述站點(diǎn)地圖數(shù)據(jù)的向量圖。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取所述目標(biāo)網(wǎng)站的會話數(shù)據(jù)包括:
讀取所述目標(biāo)網(wǎng)站的流量日志,并將所述流量日志中的訪問數(shù)據(jù)按照會話進(jìn)行分組,以得到一組或者多組會話數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述會話數(shù)據(jù)映射為所述向量圖中的子圖包括:
識別所述會話數(shù)據(jù)中包含的請求,并在所述向量圖中查詢各個(gè)所述請求對應(yīng)的節(jié)點(diǎn)位置;
根據(jù)各個(gè)所述請求的請求信息,生成與各個(gè)所述請求相匹配的請求節(jié)點(diǎn),并將生成的所述請求節(jié)點(diǎn)填充于對應(yīng)的節(jié)點(diǎn)位置處;
將各個(gè)所述請求按照訪問時(shí)間進(jìn)行排序,并根據(jù)排序結(jié)果,確定各個(gè)所述請求節(jié)點(diǎn)之間的連接關(guān)系,并將具備所述連接關(guān)系的各個(gè)所述請求節(jié)點(diǎn)構(gòu)成的圖像作為映射得到的子圖。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,生成與各個(gè)所述請求相匹配的請求節(jié)點(diǎn)包括:
針對各個(gè)所述請求中的任一目標(biāo)請求,統(tǒng)計(jì)所述目標(biāo)請求對應(yīng)的訪問鏈接的訪問頻率,并確定所述訪問頻率對應(yīng)的節(jié)點(diǎn)半徑;
生成具備所述節(jié)點(diǎn)半徑的請求節(jié)點(diǎn),并將具備所述節(jié)點(diǎn)半徑的請求節(jié)點(diǎn)作為與所述目標(biāo)請求相匹配的請求節(jié)點(diǎn)。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)排序結(jié)果,確定各個(gè)所述請求節(jié)點(diǎn)之間的連接關(guān)系包括:
在各個(gè)所述請求節(jié)點(diǎn)中確定訪問時(shí)間相鄰的任意兩個(gè)請求節(jié)點(diǎn),若所述兩個(gè)請求節(jié)點(diǎn)為不同的請求節(jié)點(diǎn),在所述兩個(gè)請求節(jié)點(diǎn)之間建立連線。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述會話標(biāo)簽和所述子圖對預(yù)設(shè)分類器進(jìn)行訓(xùn)練包括:
將所述子圖輸入所述預(yù)設(shè)分類器,并將所述預(yù)設(shè)分類器輸出的分類結(jié)果與所述會話標(biāo)簽進(jìn)行對比;
若所述分類結(jié)果與所述會話標(biāo)簽不一致,生成校正信息,并利用所述校正信息對所述預(yù)設(shè)分類器的內(nèi)部參數(shù)進(jìn)行調(diào)整,以使得再次將所述子圖輸入所述預(yù)設(shè)分類器后,所述預(yù)設(shè)分類器輸出的分類結(jié)果與所述會話標(biāo)簽保持一致。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在得到用于區(qū)分爬蟲數(shù)據(jù)和非爬蟲數(shù)據(jù)的分類器后,所述方法還包括:
獲取客戶端針對所述目標(biāo)網(wǎng)站發(fā)起的目標(biāo)會話數(shù)據(jù),并將所述目標(biāo)會話數(shù)據(jù)映射為所述向量圖的目標(biāo)子圖;
將所述目標(biāo)子圖輸入訓(xùn)練后的所述分類器中,并通過所述分類器的輸出結(jié)果判斷所述目標(biāo)會話數(shù)據(jù)是否為爬蟲數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,將所述目標(biāo)會話數(shù)據(jù)映射為所述向量圖的目標(biāo)子圖包括:
識別所述目標(biāo)會話數(shù)據(jù)中的請求數(shù)量是否達(dá)到指定數(shù)量閾值,若達(dá)到所述指定數(shù)量閾值,將所述目標(biāo)會話數(shù)據(jù)映射為所述向量圖的目標(biāo)子圖;其中,所述指定數(shù)量閾值在訓(xùn)練所述用于區(qū)分爬蟲數(shù)據(jù)和非爬蟲數(shù)據(jù)的分類器時(shí)確定。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于網(wǎng)宿科技股份有限公司,未經(jīng)網(wǎng)宿科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010112134.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 檢測反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機(jī)管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計(jì)算機(jī)設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





