[發(fā)明專利]一種基于網(wǎng)站地圖的指紋識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010530722.3 | 申請(qǐng)日: | 2020-06-11 |
| 公開(公告)號(hào): | CN111708967B | 公開(公告)日: | 2023-05-16 |
| 發(fā)明(設(shè)計(jì))人: | 劉傳興;陳怡;祝曉春;周波 | 申請(qǐng)(專利權(quán))人: | 浙江浙大網(wǎng)新國際軟件技術(shù)服務(wù)有限公司 |
| 主分類號(hào): | G06F16/958 | 分類號(hào): | G06F16/958 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 劉靜 |
| 地址: | 310012 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 網(wǎng)站 地圖 指紋識(shí)別 方法 | ||
1.一種基于網(wǎng)站地圖的指紋識(shí)別方法,其特征在于,該方法包括以下步驟:
(1)網(wǎng)站地圖樹生成:捕獲目標(biāo)網(wǎng)站的網(wǎng)站地圖,并將網(wǎng)站地圖用n叉樹T0表示;
(2)網(wǎng)站地圖樹剪枝:根據(jù)網(wǎng)站路徑黑名單對(duì)網(wǎng)站地圖樹T0進(jìn)行剪枝,保留能夠反映網(wǎng)站指紋的網(wǎng)站路徑,生成簡(jiǎn)化后的網(wǎng)站地圖樹;
(3)建立網(wǎng)站指紋-網(wǎng)站地圖樹庫D1;
(4)指紋識(shí)別:遍歷網(wǎng)站指紋-網(wǎng)站地圖樹庫中的網(wǎng)站地圖樹,與目標(biāo)網(wǎng)站地圖樹進(jìn)行匹配,從而獲取目標(biāo)網(wǎng)站的指紋信息;目標(biāo)網(wǎng)站的網(wǎng)站地圖樹設(shè)為T0,遍歷D1中的每一條數(shù)據(jù),得到網(wǎng)站指紋-網(wǎng)站地圖樹的對(duì)應(yīng)信息,設(shè)當(dāng)前遍歷到的網(wǎng)站指紋為F1,網(wǎng)站地圖樹為T1,對(duì)T0、T1進(jìn)行匹配,具體的計(jì)算方法如下:
首先層次遍歷T0,比較遍歷到的節(jié)點(diǎn)的val與T1的根節(jié)點(diǎn)的val,如果不同,繼續(xù)往下遍歷;如果相同,設(shè)T0中以當(dāng)前節(jié)點(diǎn)為根節(jié)點(diǎn)的樹為T2,然后計(jì)算T2與T1的相似度;
如果計(jì)算出T1、T2的相似度高于相似度閾值,即可認(rèn)為T1、T2實(shí)現(xiàn)了成功匹配,進(jìn)一步確認(rèn)目標(biāo)網(wǎng)站可以匹配網(wǎng)站指紋F1;如果T1、T2可以成功匹配,將T2進(jìn)行截取,保留T1高度H范圍內(nèi)的節(jié)點(diǎn),記為T3,記錄此時(shí)的F1-T3的對(duì)應(yīng)信息;
T1、T2的相似度計(jì)算完成后,繼續(xù)層次遍歷T0,并循環(huán)上述計(jì)算過程,最終得到T0匹配到的一組指紋,以及該組指紋中每個(gè)指紋對(duì)應(yīng)的新的網(wǎng)頁地圖樹T3的信息;
T1、T2相似度計(jì)算的具體方法為:
從T1的根節(jié)點(diǎn)開始進(jìn)行層次遍歷,并在相同的層進(jìn)行T1和T2之間節(jié)點(diǎn)val的比較,T1遍歷完成后,相似度計(jì)算過程結(jié)束;記根節(jié)點(diǎn)的深度d為0,節(jié)點(diǎn)深度從上往下依次遞增;在每一層,先計(jì)算出該層的相似度,計(jì)算公式如下:
其中,節(jié)點(diǎn)最大數(shù)量是指T1和T2在相同深度d層節(jié)點(diǎn)數(shù)量的最大值;
每層深度的相似度計(jì)算完成后,進(jìn)行求和,和記為sum;
T1、T2的相似度計(jì)算公式如下:
(5)網(wǎng)站指紋-網(wǎng)站地圖樹庫更新:將目標(biāo)網(wǎng)站的網(wǎng)站指紋與網(wǎng)站地圖樹的對(duì)應(yīng)信息更新到網(wǎng)站指紋-網(wǎng)站地圖樹庫中。
2.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)站地圖的指紋識(shí)別方法,其特征在于,所述步驟(1)中,n叉樹T0的每個(gè)節(jié)點(diǎn)有兩個(gè)屬性:當(dāng)前節(jié)點(diǎn)的值val和當(dāng)前節(jié)點(diǎn)的孩子節(jié)點(diǎn)列表children。
3.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)站地圖的指紋識(shí)別方法,其特征在于,所述步驟(2)中,將不能反映網(wǎng)站特性的通用字段建立黑名單;
當(dāng)網(wǎng)站地圖樹的某個(gè)節(jié)點(diǎn)存在于黑名單列表中時(shí),剪去該節(jié)點(diǎn);
當(dāng)網(wǎng)站地圖樹的某個(gè)節(jié)點(diǎn)的孩子節(jié)點(diǎn)數(shù)量大于節(jié)點(diǎn)閾值時(shí),剪去該節(jié)點(diǎn)。
4.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)站地圖的指紋識(shí)別方法,其特征在于,所述步驟(3)中,網(wǎng)站指紋-網(wǎng)站地圖樹庫的構(gòu)建方法具體為:
建立網(wǎng)站指紋庫D0,存儲(chǔ)多個(gè)網(wǎng)站指紋;
建立網(wǎng)站指紋-網(wǎng)站地圖樹庫D1,存儲(chǔ)網(wǎng)站指紋與網(wǎng)站地圖樹的一對(duì)多的關(guān)系;
對(duì)于D0中的每個(gè)網(wǎng)站指紋,找到該網(wǎng)站指紋對(duì)應(yīng)的網(wǎng)站,然后得到該網(wǎng)站的網(wǎng)站地圖,并進(jìn)一步得到該網(wǎng)站的網(wǎng)站地圖樹,將網(wǎng)站指紋-網(wǎng)站地圖樹的對(duì)應(yīng)信息增加到D1中。
5.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)站地圖的指紋識(shí)別方法,其特征在于,所述步驟(5)中,將步驟(4)中得到的目標(biāo)網(wǎng)站匹配到的指紋以及每個(gè)指紋對(duì)應(yīng)的新的網(wǎng)頁地圖樹T3的信息更新到網(wǎng)站指紋-網(wǎng)站地圖樹庫中,進(jìn)一步擴(kuò)充網(wǎng)站指紋-網(wǎng)站地圖樹庫的信息,增加網(wǎng)站指紋-網(wǎng)站地圖樹庫的覆蓋度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江浙大網(wǎng)新國際軟件技術(shù)服務(wù)有限公司,未經(jīng)浙江浙大網(wǎng)新國際軟件技術(shù)服務(wù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010530722.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測(cè)方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計(jì)算設(shè)備
- 一種網(wǎng)站識(shí)別方法及裝置
- 網(wǎng)站風(fēng)險(xiǎn)評(píng)估方法及裝置
- 網(wǎng)站版權(quán)時(shí)間的管理方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識(shí)別方法
- 網(wǎng)站應(yīng)用框架指紋識(shí)別的方法、設(shè)備、裝置及介質(zhì)





