[發明專利]基于最小緩存模型的WEB頁面流式解析方法在審
| 申請號: | 201810508416.2 | 申請日: | 2018-05-24 |
| 公開(公告)號: | CN108763930A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 玄世昌;苘大鵬;王巍;楊武;秦凱悅 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 解析 緩存模型 數據預處理 存儲壓力 對比實驗 內存占用 特征處理 提取特征 時效性 小內存 流式 網頁 驗證 保證 占用 應用 | ||
1.一種基于最小緩存模型的WEB頁面流式解析方法,其特征是:
步驟1、數據預處理;
步驟2、HTML頁面解析;
步驟3、JS腳本解析;
步驟4、特征處理。
2.根據權利要求1所述的基于最小緩存模型的WEB頁面流式解析方法,其特征是所述數據預處理具體包括:在網關處獲得網頁數據包,將網頁數據包作為輸入,根據數據包中WEB頁面的格式決定選擇哪種方式對其進行解析處理。
3.根據權利要求2所述的基于最小緩存模型的WEB頁面流式解析方法,其特征是所述根據數據包中WEB頁面的格式決定選擇哪種方式對其進行解析處理具體包括:對網頁數據包進行過濾,如果頁面數據包的內容是HTML文檔則將該網頁數據包交給頁面解析模塊進行解析處理;若頁面數據包的內容為Javascript腳本文件則將該網頁數據包交給腳本解析模塊進行解析處理;若都不是,則該頁面數據包不是要處理的網頁數據包,返回給網關。
4.根據權利要求1、2或3所述的基于最小緩存模型的WEB頁面流式解析方法,其特征是所述HTML頁面解析具體包括:一方面,對URL鏈接的標簽以及標簽內部屬性進行分析,進一步解析出HTML頁面代碼中的URL數據,并根據解析出的URL鏈接提取出用于WEB木馬檢測的特征數據;另一方面,對于屬于隱藏標簽下的URL鏈接特征進行標記,用于WEB木馬檢測。
5.根據權利要求1、2或3所述的基于最小緩存模型的WEB頁面流式解析方法,其特征是所述JS腳本解析具體包括:
1)在解析程序中引入Spidermonkey頭文件,便于程序代碼對Spidermonkey提供的接口函數的調用;
2)調用Spidermonkey提供的API接口對Javascript對象進行初始化;
3)調用API執行Javascript腳本內容,獲取需要的數據;
4)在處理完成后對腳本引擎進行清理。
6.根據權利要求4所述的基于最小緩存模型的WEB頁面流式解析方法,其特征是所述JS腳本解析具體包括:
1)在解析程序中引入Spidermonkey頭文件,便于程序代碼對Spidermonkey提供的接口函數的調用;
2)調用Spidermonkey提供的API接口對Javascript對象進行初始化;
3)調用API執行Javascript腳本內容,獲取需要的數據;
4)在處理完成后對腳本引擎進行清理。
7.根據權利要求1、2或3所述的基于最小緩存模型的WEB頁面流式解析方法,其特征是所述特征處理具體包括:
1)提取特定URL,并提取用于檢測的URL特征,
2)不顯示的隱藏標簽解析。
8.根據權利要求4所述的基于最小緩存模型的WEB頁面流式解析方法,其特征是所述特征處理具體包括:
1)提取特定URL,并提取用于檢測的URL特征,
2)不顯示的隱藏標簽解析。
9.根據權利要求5所述的基于最小緩存模型的WEB頁面流式解析方法,其特征是所述特征處理具體包括:
1)提取特定URL,并提取用于檢測的URL特征,
2)不顯示的隱藏標簽解析。
10.根據權利要求6所述的基于最小緩存模型的WEB頁面流式解析方法,其特征是所述特征處理具體包括:
1)提取特定URL,并提取用于檢測的URL特征,
2)不顯示的隱藏標簽解析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810508416.2/1.html,轉載請聲明來源鉆瓜專利網。





