[發明專利]基于最小緩存模型的WEB頁面流式解析方法在審

申請號：	201810508416.2	申請日：	2018-05-24
公開（公告）號：	CN108763930A	公開（公告）日：	2018-11-06
發明（設計）人：	玄世昌;苘大鵬;王巍;楊武;秦凱悅	申請（專利權）人：	哈爾濱工程大學
主分類號：	G06F21/56	分類號：	G06F21/56;G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	150001 黑龍江省哈爾濱市南崗區***	國省代碼：	黑龍江;23
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	解析緩存模型數據預處理存儲壓力對比實驗內存占用特征處理提取特征時效性小內存流式網頁驗證保證占用應用
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于最小緩存模型的WEB頁面流式解析方法，其特征是：

步驟1、數據預處理；

步驟2、HTML頁面解析；

步驟3、JS腳本解析；

步驟4、特征處理。

2.根據權利要求1所述的基于最小緩存模型的WEB頁面流式解析方法，其特征是所述數據預處理具體包括：在網關處獲得網頁數據包，將網頁數據包作為輸入，根據數據包中WEB頁面的格式決定選擇哪種方式對其進行解析處理。

3.根據權利要求2所述的基于最小緩存模型的WEB頁面流式解析方法，其特征是所述根據數據包中WEB頁面的格式決定選擇哪種方式對其進行解析處理具體包括：對網頁數據包進行過濾，如果頁面數據包的內容是HTML文檔則將該網頁數據包交給頁面解析模塊進行解析處理；若頁面數據包的內容為Javascript腳本文件則將該網頁數據包交給腳本解析模塊進行解析處理；若都不是，則該頁面數據包不是要處理的網頁數據包，返回給網關。

4.根據權利要求1、2或3所述的基于最小緩存模型的WEB頁面流式解析方法，其特征是所述HTML頁面解析具體包括：一方面，對URL鏈接的標簽以及標簽內部屬性進行分析，進一步解析出HTML頁面代碼中的URL數據，并根據解析出的URL鏈接提取出用于WEB木馬檢測的特征數據；另一方面，對于屬于隱藏標簽下的URL鏈接特征進行標記，用于WEB木馬檢測。

5.根據權利要求1、2或3所述的基于最小緩存模型的WEB頁面流式解析方法，其特征是所述JS腳本解析具體包括：

1)在解析程序中引入Spidermonkey頭文件，便于程序代碼對Spidermonkey提供的接口函數的調用；

2)調用Spidermonkey提供的API接口對Javascript對象進行初始化；

3)調用API執行Javascript腳本內容，獲取需要的數據；

4)在處理完成后對腳本引擎進行清理。

6.根據權利要求4所述的基于最小緩存模型的WEB頁面流式解析方法，其特征是所述JS腳本解析具體包括：

1)在解析程序中引入Spidermonkey頭文件，便于程序代碼對Spidermonkey提供的接口函數的調用；

2)調用Spidermonkey提供的API接口對Javascript對象進行初始化；

3)調用API執行Javascript腳本內容，獲取需要的數據；

4)在處理完成后對腳本引擎進行清理。

7.根據權利要求1、2或3所述的基于最小緩存模型的WEB頁面流式解析方法，其特征是所述特征處理具體包括：

1)提取特定URL，并提取用于檢測的URL特征，