[發明專利]一種基于動態插樁和靜態多腳本頁特征提取的網頁廣告檢測方法有效
| 申請號: | 201710033452.3 | 申請日: | 2017-01-13 |
| 公開(公告)號: | CN108614849B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 張衛豐;趙晨;劉蕊成;陳貴美;許蕾;張迎周;周國強;王子元 | 申請(專利權)人: | 南京郵電大學鹽城大數據研究院有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/958;G06F8/41 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 張樹朋 |
| 地址: | 224000 江蘇省鹽城市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 動態 靜態 腳本 特征 提取 網頁 廣告 檢測 方法 | ||
本發明公開了一種對于網頁廣告的新型檢測方法,使用動態分析和靜態分析相結合的程序分析方法,對網頁中所包含的廣告代碼進行識別和檢測。首先使用動態分析方法獲取網頁中可能的廣告位置,然后對該位置上的廣告進行記錄和追蹤,獲取廣告生成的函數調用路徑信息,從而獲得生成的腳本文件集合;再使用靜態特征對文件集合進行分類,抽取廣告生成路徑上的靜態特征;根據測試集對包含的靜態特征種類和數量進行調控。在降低漏檢率的基礎上,提高對網頁動態廣告的檢測精度。
技術領域
本發明涉及一種基于動態插樁和靜態多腳本頁特征提取的網頁廣告檢測方法,屬于互聯網和軟件工程領域。
背景技術
隨著互聯網的普及和發展,網絡廣告成為免費網站盈利和持續發展的重要前提;而隨著Web2.0技術的發展,JavaScript的廣泛使用使得網頁廣告成為網絡廣告的主流形式:當用戶打開一個網頁時,網頁廣告可能以彈出窗口的形式出現,也可能占據網頁的部分篇幅用以吸引用戶點擊。這種廣告的呈現,促進了以電子商務為主的網絡銷售商的業務發展,同時也提高了免費網站為用戶提供服務的質量。
網絡廣告的迅速發展為網絡商業模式提供了諸多便利,但同時也為眾多惡意網站的傳播提供了方便:有的惡意網站通過廣告聯盟在正常頁面中加載自己的惡意腳本,誘導用戶點擊這些偽裝成廣告的惡意鏈接;有的網頁廣告占據了網頁的大量篇幅,嚴重影響用戶瀏覽網頁時的閱讀體驗;有的網頁廣告嚴重干擾用戶的正常訪問,收集、侵犯用戶的隱私信息。
近年來,對于網絡廣告的檢測方法主要集中在靜態模式匹配、靜態特征匹配等方法上。
靜態模式匹配方法有兩種:通過收集所有廣告服務公司的域名,生成黑名單;通過使用選擇器模式匹配,識別瀏覽器中的廣告元素。
靜態特征匹配的檢測方法通過獲取對包含有網頁廣告的網頁進行特征抽取,通過獲取頁面中原生函數調用、eval函數的使用、代碼長度、是否包含特定字符串、是否使用混淆技術等特征來對網頁廣告進行識別和檢測。
現有技術中使用靜態模式匹配方法無法正確檢測混淆后的域名和選擇器;另外,使用靜態特征匹配方法只使用單一頁面作為數據集,檢測精度不高。
由于網頁中的靜態廣告往往是在原生網頁中插入一個含有鏈接的圖片,甚至有時候是單純的鏈接標簽,這與門戶網站上包含大量外部網站的圖片鏈接沒有實質上的不同,因此靜態廣告不在我們的關注范圍之內。
對于廣告的動態特性,我們關注的是動態廣告而不是單純的圖片鏈接。對于動態廣告的分析,我們主要考慮通過廣告聯盟進行傳播的廣告,這類廣告通常只需要網頁的發布者在編碼頁面時插入一個指定的標簽,用于對于廣告進行定位和放置,廣告聯盟通過識別該標簽,根據瀏覽該頁面的用戶Cookie等信息動態生成需要顯示的廣告內容。廣告的顯示是在頁面中插入一些JavaScript腳本文件,這些腳本文件往往自動執行,經過一系列函數調用,最終在頁面上顯示不同的廣告。
發明內容
技術問題:本發明的目的是克服現有技術的不足,根據網頁中廣告的傳播路徑,動態獲取廣告生成路徑上所有的腳本文件,以此作為特征識別網頁廣告。
為實現上述目的,本發明首先通過執行包含網頁廣告的頁面,動態獲取網頁中廣告生成路徑的函數調用路徑信息,通過調用路徑信息獲取網頁廣告生成所需要的所有JavaScript腳本文件;在此基礎上,對所有腳本文件進行靜態分析,通過特征識別出網頁廣告。
該發明通過使用動態插樁的方式獲得網頁中的廣告以及廣告生成的調用路徑,克服了靜態模式匹配方法中對于混淆域名和選擇器無法檢測的不足;又由于根據廣告生成過程中使用的多個腳本來抽取特征,針對性強,克服了靜態特征匹配方法數據噪音大的缺陷。
本發明方法具體包括如下步驟:
步驟1:對廣告進行分析,獲取其動態特性,并在網頁中定位廣告
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學鹽城大數據研究院有限公司,未經南京郵電大學鹽城大數據研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710033452.3/2.html,轉載請聲明來源鉆瓜專利網。





