[發(fā)明專利]一種基于網(wǎng)絡(luò)爬蟲的網(wǎng)站指紋信息掃描的方法及裝置有效
| 申請?zhí)枺?/td> | 201811325785.4 | 申請日: | 2018-11-08 |
| 公開(公告)號: | CN109376291B | 公開(公告)日: | 2020-11-24 |
| 發(fā)明(設(shè)計(jì))人: | 趙海博;范淵;莫金友 | 申請(專利權(quán))人: | 杭州安恒信息技術(shù)股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/953 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 310000 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 網(wǎng)絡(luò) 爬蟲 網(wǎng)站 指紋 信息 掃描 方法 裝置 | ||
1.一種基于網(wǎng)絡(luò)爬蟲的網(wǎng)站指紋信息掃描方法,其特征在于,包括:
獲取構(gòu)建網(wǎng)站所需的多個元素類,所述元素類包括操作系統(tǒng)、編程語言、網(wǎng)頁服務(wù)器、網(wǎng)頁應(yīng)用框架、腳本語言框架及內(nèi)容管理系統(tǒng);
記錄各個元素類下各個元素具有的與任一或任多預(yù)設(shè)特征元素對應(yīng)的特征值,且記錄的不同元素對應(yīng)同一預(yù)設(shè)特征元素的特征值不同,所述預(yù)設(shè)特征元素包括響應(yīng)頭特征、引入js特征、script特征、html特征及所屬元素類;
利用網(wǎng)絡(luò)爬蟲爬取目標(biāo)網(wǎng)站的內(nèi)容,得到所述目標(biāo)網(wǎng)站與任一或任多預(yù)設(shè)特征元素對應(yīng)的特征值,將得到的特征值與記錄的特征值進(jìn)行比對,得到包含有與所述目標(biāo)網(wǎng)站的特征值匹配的記錄的特征值的網(wǎng)站指紋信息;
記錄各個元素類下各個元素具有的與任一或任多預(yù)設(shè)特征元素對應(yīng)的特征值,包括:
如果各個元素類下各個元素具有的任一特征值引用預(yù)設(shè)基礎(chǔ)特征,則記錄該任一特征值時(shí)同時(shí)記錄引用的預(yù)設(shè)基礎(chǔ)特征的名稱。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,記錄各個元素類下各個元素具有的與任一或任多預(yù)設(shè)特征元素對應(yīng)的特征值之后,還包括:
將記錄的特征值構(gòu)造成格式相同的json字符。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,記錄各個元素類下各個元素具有的與任一或任多預(yù)設(shè)特征元素對應(yīng)的特征值,包括:
在預(yù)先設(shè)定的特征模板庫中記錄各個元素類下各個元素具有的與任一或任多預(yù)設(shè)特征元素對應(yīng)的特征值。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,得到網(wǎng)站指紋信息之后,還包括:
確定與所述目標(biāo)網(wǎng)站的特征值匹配的記錄的特征值為目標(biāo)特征值,并將所述目標(biāo)特征值對應(yīng)的特征圖片及網(wǎng)站地址輸出;其中,記錄各個元素類下各個元素具有的特征值時(shí)還記錄有各個元素對應(yīng)的特征圖片及網(wǎng)站地址。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用網(wǎng)絡(luò)爬蟲爬取目標(biāo)網(wǎng)站的內(nèi)容,得到所述目標(biāo)網(wǎng)站與各個預(yù)設(shè)特征元素對應(yīng)的特征值,包括:
利用網(wǎng)絡(luò)爬蟲爬取目標(biāo)網(wǎng)站的內(nèi)容,如果爬取得到的頁面為靜態(tài)頁面,則直接由所述靜態(tài)頁面中獲取與各個預(yù)設(shè)特征元素對應(yīng)的特征值;如果爬取得到的頁面為動態(tài)頁面,則運(yùn)行對應(yīng)的javascript代碼得到對應(yīng)的靜態(tài)頁面,并由獲取的靜態(tài)頁面中獲取與各個預(yù)設(shè)特征元素對應(yīng)的特征值。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,利用網(wǎng)絡(luò)爬蟲爬取目標(biāo)網(wǎng)站的內(nèi)容,包括:
依次利用網(wǎng)絡(luò)爬蟲爬取所述目標(biāo)網(wǎng)站包含的預(yù)設(shè)層網(wǎng)頁的內(nèi)容。
7.一種基于網(wǎng)絡(luò)爬蟲的網(wǎng)站指紋信息掃描裝置,其特征在于,包括:
獲取模塊,用于:獲取構(gòu)建網(wǎng)站所需的多個元素類,所述元素類包括操作系統(tǒng)、編程語言、網(wǎng)頁服務(wù)器、網(wǎng)頁應(yīng)用框架、腳本語言框架及內(nèi)容管理系統(tǒng);
記錄模塊,用于:記錄各個元素類下各個元素具有的與任一或任多預(yù)設(shè)特征元素對應(yīng)的特征值,且記錄的不同元素對應(yīng)同一預(yù)設(shè)特征元素的特征值不同,所述預(yù)設(shè)特征元素包括響應(yīng)頭特征、引入js特征、script特征、html特征及所屬元素類;
匹配模塊,用于:利用網(wǎng)絡(luò)爬蟲爬取目標(biāo)網(wǎng)站的內(nèi)容,得到所述目標(biāo)網(wǎng)站與任一或任多預(yù)設(shè)特征元素對應(yīng)的特征值,將得到的特征值與記錄的特征值進(jìn)行比對,得到包含有與所述目標(biāo)網(wǎng)站的特征值匹配的記錄的特征值的網(wǎng)站指紋信息;
所述記錄模塊包括:
第一記錄單元,用于:如果各個元素類下各個元素具有的任一特征值引用預(yù)設(shè)基礎(chǔ)特征,則記錄該任一特征值時(shí)同時(shí)記錄引用的預(yù)設(shè)基礎(chǔ)特征的名稱。
8.一種基于網(wǎng)絡(luò)爬蟲的網(wǎng)站指紋信息掃描設(shè)備,其特征在于,包括:
存儲器,用于存儲計(jì)算機(jī)程序;
處理器,用于執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述基于網(wǎng)絡(luò)爬蟲的網(wǎng)站指紋信息掃描方法的步驟。
9.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述基于網(wǎng)絡(luò)爬蟲的網(wǎng)站指紋信息掃描方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州安恒信息技術(shù)股份有限公司,未經(jīng)杭州安恒信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811325785.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 檢測反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機(jī)管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計(jì)算機(jī)設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計(jì)算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險(xiǎn)評估方法及裝置
- 網(wǎng)站版權(quán)時(shí)間的管理方法、裝置、存儲介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)





