[發明專利]網頁頁面特征的篡改檢測方法及裝置在審
| 申請號: | 202010535869.1 | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111797904A | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 李子雙;肖新光 | 申請(專利權)人: | 哈爾濱安天科技集團股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/951;G06F16/955;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150028 黑龍江省哈爾濱市哈爾濱高新技術*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 頁面 特征 篡改 檢測 方法 裝置 | ||
本發明提供一種網頁頁面特征的篡改檢測方法、裝置、電子設備及存儲介質,該方法包括:獲取網頁樣本數據,建立網頁樣本數據集文檔;從數據集文檔中提取文本特征、結構特征和網絡特征;挖掘文本特征、結構特征和網絡特征之間的非線性關系,進而檢測網頁頁面特征的篡改行為類別。基于深度學習的異構特征分類算法,有效融合文本特征、結構特征和網絡特征,更為精準地識別不同種類的網頁篡改行為,降低了檢測誤報率。
技術領域
本發明涉及網絡安全技術領域,尤其涉及網頁頁面特征的篡改檢測方法、裝置、電子設備及存儲介質。
背景技術
目前在網絡安全領域,網頁篡改檢測技術主要分為本地檢測技術和遠程檢測技術兩種。本地檢測技術是指將檢測程序部署在網站服務器上,目前主要有以下幾種方法:
使用工具對網頁當前數據與歷史數據進行對比,提出一種基于內容對比的校園網頁防篡改監控系統,將有變動的網頁展示給管理員查看;
從操作系統底層調用,以事件為出發點的文件防篡改機制,無須備份網頁文件,就可以有效防止網頁文件被非法篡改,確保網頁健康運行;
基于動態水印技術的鑒別,在用戶登錄階段進行校驗來判斷當前網頁是否安全合法;
使用主成分分析法進行分類并規范網頁屬性,基于此提出針對不同網頁的防篡改檢測系統規則。
本地檢測技術雖然檢測結果準確,但是需要單機部署,不適用于大規模檢測的場景中。
遠程檢測技術依賴網絡爬蟲工作,部署簡單,適合大規模監控目標網站,但是誤報率較高,目前主要檢測研究方法有:
使用靜態文本識別技術檢測已知類型的網站掛馬和暗鏈植入等惡意行為;
使用機器學習方法識別網頁中的暗鏈,結合了暗鏈的域名、文本和隱藏結構特征,使用了分類與回歸樹、梯度提升決策樹和隨機森林三種方法來構建檢測模型;
對腳本攻擊行為進行了智能檢測,首先使用類圖像處理方法對數據進行預處理,再通過詞向量方法獲取特征,最后使用深度卷積神經網絡進行智能識別;
基于網頁主視覺區域的結構化文檔對釣魚網站進行檢測,再從中提取特征進行分類。
這些研究方法在網頁篡改方面進行了有益的探索,但仍存在幾個主要問題:(1)使用的訓練集過小,考慮的網頁篡改類型簡單,難以面對復雜多變的篡改行為。(2)使用的方法簡單,不能充分挖掘不同特征中的復雜非線性關系,限制了模型的表示能力。(3)由于后兩種方法研究對象并不直接匹配,這些方法和所用的數據集并不能直接移植到網頁篡改識別工作中。
發明內容
有鑒于此,本發明提供了網頁頁面特征的篡改檢測方法、裝置、電子設備及存儲介質,以解決或部分解決上述技術問題。
根據本發明的一個方面,提供了一種網頁頁面特征的篡改檢測方法,所述方法包括:
獲取網頁樣本數據,建立網頁樣本數據集文檔;
從所述數據集文檔中提取文本特征、結構特征和網絡特征;
挖掘所述文本特征、結構特征和網絡特征之間的非線性關系,進而檢測網頁頁面特征的篡改行為類別。
可選地,所述獲取網頁樣本數據,建立網頁樣本數據集文檔包括:
使用自動掃描策略獲取可能被篡改的網頁樣本;
對于所述網頁樣本基于網頁被篡改的類型進行標注,建立網頁樣本數據集文檔。
可選地,所述從所述數據集文檔中提取文本特征、結構特征和網絡特征包括:
以規則方式提取所述數據集文檔中的文本,進行自動分詞,獲得多個詞串,從所述詞串中抽取文本特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱安天科技集團股份有限公司,未經哈爾濱安天科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010535869.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種人員及車輛共用消毒房
- 下一篇:多點式旋鉚機構





