[發明專利]一種基于廣告網絡拓撲的惡意網頁廣告檢測方法有效
| 申請號: | 201710572122.1 | 申請日: | 2017-07-13 |
| 公開(公告)號: | CN107437026B | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 尹小燕;王華;湯戰勇;倪禮剛;牛進平;侯愛琴;徐丹;陳峰;陳曉江;房鼎益 | 申請(專利權)人: | 西北大學 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F16/955 |
| 代理公司: | 西安恒泰知識產權代理事務所 61216 | 代理人: | 李婷;張明 |
| 地址: | 710069 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 廣告 網絡 拓撲 惡意 網頁 檢測 方法 | ||
1.一種基于廣告網絡拓撲的惡意網頁廣告檢測方法,其特征在于,包括以下步驟:
步驟一,提取待測網站中的所有URL;
步驟二,利用廣告檢測插件提取所述的URL中所有廣告的URL;
步驟三,根據URL之間的請求響應關系,結合步驟一得到的所有URL和步驟二提取的廣告相關的URL,重新構造廣告重定向鏈;
步驟四,對所述的廣告重定向鏈上的每一個URL節點,注釋其角色屬性、域的生命周期、URL屬性、重定向鏈的長度、節點的頻率這些特征;
步驟五,對URL節點注釋特征后,提取每一個URL節點所有的3-節點短路徑段;所述的3-節點短路徑段是指廣告重定向鏈上,每相鄰的三個URL節點構成的路徑段;
步驟六,將已知的惡意網頁廣告路徑和從步驟五中得到的3-節點短路徑段中選取每個節點的域的生命周期都超過一年的路徑段作為訓練數據,構建一顆完整的決策樹,并對決策樹進行剪枝,生成一組精簡的檢測規則來檢測惡意網頁廣告。
2.如權利要求1所述的基于廣告網絡拓撲的惡意網頁廣告檢測方法,其特征在于,所述的步驟五的具體步驟包括:
步驟5.1,對廣告重定向鏈進行預處理
刪除廣告重定向鏈上所有已知的出版商節點;如果一組連續的節點來自相同的域共享相同的屬性,則將這些節點合并為一個節點;
步驟5.2,預處理之后,對廣告重定向鏈提取所有可能的3-節點短路徑段;所述的3-節點短路徑段是指廣告重定向鏈上,每相鄰的三個URL節點構成的路徑段;如果一條路徑段短于3個節點,則用空節點來補全。
3.如權利要求1所述的基于廣告網絡拓撲的惡意網頁廣告檢測方法,其特征在于,所述的步驟六中,構建決策樹的步驟包括:
1)以步驟六中所述的訓練數據為樣本,作為一個節點開始;
2)如果樣本都在同一個類中,即樣本的屬性取值都相同,則該節點成為決策樹的葉子節點,不再對其劃分;否則,選擇一個最具有分類能力的屬性,根據樣本對于該屬性取值的不同,將樣本劃分為若干個子樣本,每個取值形成一個決策樹的分枝,有幾個取值則形成幾個分枝;
3)針對上一步得到的一個子樣本,重復進行先前步驟,遞歸形成每個子樣本上的決策樹;
4)遞歸的過程當且僅當下列條件之一成立時停止:
①每一個子樣本都屬于同一類,為決策樹的葉子節點;
②沒有剩余的屬性可以用來進一步劃分樣本;在這種情況下,就認為這些樣本都屬于同一類,把它們作為決策樹的葉子節點;
5)決策樹中每一條到葉子節點的分支即為一條檢測規則。
4.如權利要求3所述的基于廣告網絡拓撲的惡意網頁廣告檢測方法,其特征在于,所述的“最具有分類能力的屬性”是指具有最大信息增益的屬性,所述的信息增益的計算公式為:
上式中,A表示樣本S的一個屬性,Value(A)是屬性A所有的取值集合,v是A的其中一個取值,Sv是樣本S中A的取值為v的子樣本集合,所述的樣本的屬性指步驟四所述的特征;Entropy(S)表示信息熵,其計算公式為:
其中,m為樣本的類別數,p(ui)為類別ui在樣本S中出現的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北大學,未經西北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710572122.1/1.html,轉載請聲明來源鉆瓜專利網。





