[發明專利]域識別加主題識別構建機器學習模型檢測網頁暗鏈的方法有效
| 申請號: | 201710853580.2 | 申請日: | 2017-09-20 |
| 公開(公告)號: | CN107566391B | 公開(公告)日: | 2020-04-14 |
| 發明(設計)人: | 孟雷 | 申請(專利權)人: | 上海斗象信息科技有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06F16/33;G06F16/955;G06N99/00 |
| 代理公司: | 上海翰信知識產權代理事務所(普通合伙) 31270 | 代理人: | 張維東 |
| 地址: | 201203 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 主題 構建 機器 學習 模型 檢測 網頁 方法 | ||
本發明提供了一種域識別加主題識別構建機器學習模型檢測網頁暗鏈的方法,包括:收集大量含已被標注為包含暗鏈的網頁源碼和標注為正常的網頁源碼作為訓練集,通過可疑域識別、敏感域識別、安全域識別、全域分析和主題識別提取每個網頁源碼中風險文本、風險度、主題異樣度、主題、風險文本向量、風險文本異常概率、以及風險文本長度,將訓練集中所有網頁源碼的特征數據用機器學習算法進行模型訓練得到分類判別模型,最后,將待預測網頁源碼的特征數據導入分類判別模型中,得到待預測網頁源碼是否包含暗鏈,因此,本發明對高混雜暗鏈代碼識別效果好、特征提取的比較完整、且能夠很好解決傳統方法無法正確區分暗鏈和頁面篡改的問題。
技術領域
本發明屬于網絡安全技術領域,具體涉及一種域識別加主題識別構建機器學習模型檢測網頁暗鏈的方法。
背景技術
近年來,互聯網行業蓬勃發展,網絡已經成為人們主要的信息獲取方式,隨著各種新網站的出現,網絡信息成指數級增長。在這種海量信息下,搜索引擎成為了主要的信息搜索工具,搜索引擎通過爬取網站信息并對網頁內容計算權重做排名展示在搜索結果中。由于展示在搜索結果前部的網站有更大概率被用戶訪問,某些網站管理者為了獲取更多訪問量,往往采取各種作弊手段。“暗鏈”就是一種提高網站排名的作弊手段。具體說,“暗鏈”指的是攻擊者獲取網站權限后,修改網頁源碼,插入指向其他網站的反向連接代碼,并且用戶在正常瀏覽網頁時無法看到此鏈接,但可被搜索引擎檢索計算權重。一旦網頁中存在暗鏈,通常這個網站已經被入侵,網站存在被植入惡意代碼、網頁被惡意篡改,數據信息泄露等風險。因此,“暗鏈”相比于其它搜索引擎作弊方式,具體有更大的危害性,并且難于發現。目前傳統暗鏈檢測方式都是基于規則的掃描方式,此種方式規則固定,很容易通過使用一些有技巧的代碼編寫方式繞過,規則掃描方式還需要大量人工維護對規則更新。這種基于規則無法對高技巧編碼的識別,以及需要大量人工維護的問題,即是本文需要解決的技術問題。本文設計的基于機器學習的方案能很好的解決此類技術問題。
各搜索引擎也對通過頁面注入暗鏈方式提升網站排名行為做了嚴格管控,但是這種暗鏈行為還是時有發生。目前在已公布的關于暗鏈檢測的專利中,多數是使用基于規則的檢測。如百度公開的暗鏈檢測專利(申請號201210049496.2公布號CN102622435A),是使用基于規則加黑名單識別網頁暗鏈,此方式對于高度混淆的暗鏈代碼識別較弱。目前已公布的暗鏈檢測專利中僅有一篇使用了機器學習算法,專利(申請號201410452221.2公布號CN104239485A)使用了機器學習對頁面中提取的所有錨文本作為特征構建模型識別暗鏈,此種方式提取了頁面所有錨文本,會產生很多噪音數據,提取的特征較粗,會降低識別效果,并且由于僅通過錨文本做特征會將不含暗鏈的頁面內容篡改誤識別為暗鏈。
發明內容
本發明是為了解決上述問題而進行的,目的在于提供一種對高混雜暗鏈代碼識別效果好、特征提取的比較完整、且能夠很好區分暗鏈和頁面篡改的域識別加主題識別構建機器學習模型檢測網頁暗鏈的方法。
本發明提供了一種域識別加主題識別構建機器學習模型檢測網頁暗鏈的方法,其特征在于,包括以下步驟:
步驟1,收集大量網頁源碼作為訓練集,所述訓練集中包含已被標注為包含暗鏈的網頁和標注為正常的網頁;
步驟2,提取訓練集中網頁源碼和待預測網頁源碼中用于構建機器學習模型的特征數據,所述特征數據包含風險度、主題異樣度、主題、風險文本向量、風險文本異常概率、以及風險文本長度,
首先,將所述訓練集中網頁源碼和待預測網頁源碼進行可疑域識別或敏感域識別得到每個網頁源碼的風險文本和風險度,進行安全域識別得到安全文本,或者,進行全域分析得到每個網頁源碼的風險文本、風險度和安全文本,根據所述風險文本和所述安全文本基于主題識別模型得到每個網頁源碼的主題異樣度、以及主題,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海斗象信息科技有限公司,未經上海斗象信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710853580.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:極耳撫平隨動機構及鋰電池卷繞機
- 下一篇:刮壓極耳裝置





