[發明專利]一種基于流量分析的多鏈路網頁篡改判定方法有效
| 申請號: | 201910364169.8 | 申請日: | 2019-04-30 |
| 公開(公告)號: | CN110134901B | 公開(公告)日: | 2023-06-16 |
| 發明(設計)人: | 楊武 | 申請(專利權)人: | 哈爾濱英賽克信息技術有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/951 |
| 代理公司: | 哈爾濱龍科專利代理有限公司 23206 | 代理人: | 高媛 |
| 地址: | 150000 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 流量 分析 路網 篡改 判定 方法 | ||
1.一種基于流量分析的多鏈路網頁篡改判定方法,其特征在于所述方法包括如下步驟:
步驟一、配置網站規則;
步驟二、在多個鏈路節點中捕獲網頁,并且使用相似度比對算法將歷史網頁與當前網頁進行對比,得出網頁是否被篡改的結論,所述相似度比對算法的具體步驟如下:
第一步、初始化:初始化兩個足夠大的隊列q1,q2,用來遍歷virtual?DOM中的結點;初始化一個mapstring,intmap_tag_affectoi用來存儲影響因子為2的元素;初始化一個mapstring,intmap_tag_classify用來存儲元素分類;初始化一個足夠大的整型數組array1,每一個元素存儲一層的變化比例;初始化一個足夠大的二維整型數組arrayb,存儲對應的文本集合屬于固定區域還是動態區域;初始化兩個vectortextv1,v2,用來存儲文本集合;初始化一個整型數組array2,數組中每一個元素存儲一個集合的變化比例;初始化雙精度浮點數nu,記錄一層中有變化的元素的累加和;初始化雙精度浮點數de,用來記錄一層中所有元素的累加和,執行第二步;
第二步、同時按層遍歷兩個virtualDOM,遍歷過程中向結點中添加層號屬性和父結點序號屬性,兩個根結點入隊,執行第三步;
第三步、出隊:若q1,q2中一個為空,另一個不為空,則執行第九步;若兩隊列都為空,則執行第十步;否則,q1和q2出隊,出隊結點為N1,N2,將N1和N2的兒子結點分別按順序入隊,執行第四步;
第四步、對比兩個結點N1,N2:將歷史父結點序號和當前父結點序號進行對比,若不同,則執行第五步;否則,執行第六步;
第五步、對比兩個文本集合v1,v2:將集合變化比例記錄到數組array2,執行第六步;
第六步、記錄層變化比例:將結點中的文本text1,text2分別存入v1,v2,將歷史層號和當前層號進行對比,若不同,則根據nu和de將該層結構變化比例記錄到數組array1中,執行第七步;
第七步、對比重要屬性propl1,propl2:若propl1和propl2存在,且同為src或者同為href,且屬性值相同,或者propl1和propl2都不存在,則執行第八步;否則執行第九步;
第八步、對比兩個元素tag1、tag2:若tag1和tag2都不為空,且不屬于同一元素分類,則執行第九步;否則,進行nu和de的累加,并執行第三步;
第九步、判定該網頁為被篡改,算法結束;
第十步、判定該網頁為未被篡改,算法結束;
步驟三、將多個鏈路節點的結論進行匯總,并綜合分析,得出網頁是被流量篡改還是源篡改。
2.根據權利要求1所述的基于流量分析的多鏈路網頁篡改判定方法,其特征在于所述步驟一中,網站規則的配置方式有兩種:
1)人為指定模式:人為的指定目標網頁中哪一部分是固定區域,哪一部分是動態區域,需要配置的內容是:固定區域在網頁DOM樹中有哪幾個內容集合,動態區域在網頁DOM樹中有哪幾個內容集合;
2)無人為指定模式:通過抓取該網站的前M次網頁,分別對比前后兩次網頁的不同,得出網頁的動態區域以及固定區域,需要配置的內容是:M的取值。
3.根據權利要求1所述的基于流量分析的多鏈路網頁篡改判定方法,其特征在于所述步驟二的具體步驟如下:
在抓取到一個網頁后,先提取網頁的相關數據,再通過查找該網頁的URL,判斷是否有該網頁的歷史信息,若有則將當前網頁的相關數據和歷史信息進行相似度比對,得出相似度的值,并與該網頁的相似度基準值進行比較,得出結論;若得出更新結論,則將歷史信息替換為當前的相關數據。
4.根據權利要求3所述的基于流量分析的多鏈路網頁篡改判定方法,其特征在于所述網頁的相關數據包括:virtualDOM、固定區域的位置信息、動態區域的位置信息和相似度基準值。
5.根據權利要求1所述的基于流量分析的多鏈路網頁篡改判定方法,其特征在于所述步驟三中,判斷網頁是被流量篡改還是源篡改的方法如下:
假設有n個節點,那么節點表示為k1,k2,k3,…,kn,目標網站服務器表示為s,具體對比的方案為:
1)若k1,k2,k3,…,kn結論全為非篡改,那么最終結論是:沒有網頁流量篡改的情況;
2)若某幾個節點結論為篡改,其他結點結論為非篡改,那么最終結論是:從s到篡改節點的鏈路上都出現網頁流量篡改的情況;
3)若k1,k2,k3,…,kn結論為篡改,那么有可能網頁被源篡改,也有可能是在s到k1,k2,k3,…,kn的鏈路上都出現了網頁流量篡改的情況。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱英賽克信息技術有限公司,未經哈爾濱英賽克信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910364169.8/1.html,轉載請聲明來源鉆瓜專利網。





