[發明專利]一種基于動態插樁和靜態多腳本頁特征提取的網頁廣告檢測方法有效
| 申請號: | 201710033452.3 | 申請日: | 2017-01-13 |
| 公開(公告)號: | CN108614849B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 張衛豐;趙晨;劉蕊成;陳貴美;許蕾;張迎周;周國強;王子元 | 申請(專利權)人: | 南京郵電大學鹽城大數據研究院有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/958;G06F8/41 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 張樹朋 |
| 地址: | 224000 江蘇省鹽城市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 動態 靜態 腳本 特征 提取 網頁 廣告 檢測 方法 | ||
1.一種基于動態插樁和靜態多腳本頁特征提取的網頁廣告檢測方法,其特征在于,首先通過執行包含網頁廣告的頁面,動態獲取網頁中廣告生成路徑的函數調用路徑信息,通過調用路徑信息獲取網頁廣告生成所需要的所有JavaScript腳本文件;在此基礎上,對所有腳本文件進行靜態分析,通過特征分類模型識別出網頁廣告。
2.根據權利要求1所述的基于動態插樁和靜態多腳本頁特征提取的網頁廣告檢測方法,其特征是包括以下步驟:
1)對廣告進行分析,獲取其動態特性,并在網頁中定位廣告,通過對網頁中動態廣告的分析,獲取網頁廣告的動態特性,為此需要對動態廣告的完整生成過程進行分析,并對比其與普通網頁頁面元素的不同之處,定位到具體的網頁廣告代碼;
2)使用1)的方法,定位頁面中網頁廣告的具體位置,再對網頁廣告進行完整的調用路徑追蹤,其中包括廣告生成過程中的函數調用路徑以及具體執行的腳本代碼等信息,通過對函數調用路徑的獲取可以得到廣告生成路徑上所有的JavaScript腳本文件,據此可以不局限于單個頁面上元素的特征分析;
3)對于獲得的多個腳本文件抽取特征,即根據2)獲得的JavaScript腳本文件,對多個JS文件抽取特征,獲取廣告生成的靜態特征,包括HTML DOM元素特征、JavaScript腳本特征、CSS特征等,使用分類器對此進行訓練,生成廣告代碼檢測模型;
4)對結果進行反饋,使用廣告代碼檢測模型運行測試數據,將其結果與實際的廣告進行比較,對分類過程中的閾值進行調整,對實際的網頁廣告進行檢測和識別。
3.根據權利要求2所述的基于動態插樁和靜態多腳本頁特征提取的網頁廣告檢測方法,其特征是步驟1)中,對廣告進行分析獲取其動態特性并在網頁中定位廣告,具體為:
通過對網頁中動態廣告的分析,獲取網頁廣告的動態特性,為此需要對動態廣告的完整生成過程進行分析,并對比其與普通網頁頁面元素的不同之處,定位到具體的網頁廣告代碼;
對于動態廣告的分析,主要需要考慮通過廣告聯盟進行傳播的廣告,這類廣告的生成調用了第三方即廣告聯盟的腳本庫,用于生成廣告,其廣告生成動態特性是來自于第三方腳本庫的JavaScript代碼自動執行。
4.根據權利要求1所述的基于動態插樁和靜態多腳本頁特征提取的網頁廣告檢測方法,其特征是步驟2)中,對網頁廣告進行調用路徑的追蹤:
當定位了頁面中網頁廣告的具體位置后,再對網頁廣告進行完整的調用路徑追蹤;網頁廣告的生成經歷了多次函數調用,調用路徑包括了多次跳轉,即調用了多個腳本文件,這些腳本文件是后續獲取廣告特征所需要使用的數據集,因此,對于已經確定的可能廣告位,需要對其調用路徑進行追蹤和記錄;
在網頁運行中對每個函數獲取其調用者,判斷調用者是否已經被標記,如果其調用者被標記,則給本身函數加入路徑信息,對路徑進行追蹤和保存;如果沒有被標記則不做任何操作;
使用動態插樁方法實現對JavaScript中函數添加包含調用信息的自定義屬性,通過對調用信息的顯示,可以獲取路徑上具體的腳本文件集合,由此實現對廣告生成路徑上所有腳本文件的特征進行分析。
5.根據權利要求1所述的基于動態插樁和靜態多腳本頁特征提取的網頁廣告檢測方法,其特征在于步驟3)中,對于獲得的多個腳本文件抽取特征:
對大量包含廣告的網站使用動態插樁方法得到與廣告相關的JavaScript腳本文件。使用批處理的方法將相應文件進行保存,以作為抽取廣告靜態特征時的數據集。將于廣告無關的JavaScript腳本文件用相同的方法進行保存并作為與廣告無關的對照數據集。對于廣告相關的JavaScript腳本文件進行靜態特征的抽取,包括廣告生成過程中函數調用路徑的深度、腳本文件中字符串拼接次數、動態執行代碼次數、使用原生函數的種類和次數、使用JavaScript事件處理函數的種類和次數等,據此對廣告文件進行特征抽取,判定滿足一定特征的腳本文件是否為廣告。
6.根據權利要求1所述的基于動態插樁和靜態多腳本頁特征提取的網頁廣告檢測方法,其特征在于步驟4)中,對結果進行反饋,將分類器運行測試數據的結果與實際的廣告進行比較,對分類過程中的閾值進行調整,對網頁廣告進行檢測和識別;實驗數據中的訓練數據用于對使用的特征分類為廣告相關特征和廣告無關特征;測試數據用于對訓練好的模型進行檢驗,用于評估模型的準確性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學鹽城大數據研究院有限公司,未經南京郵電大學鹽城大數據研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710033452.3/1.html,轉載請聲明來源鉆瓜專利網。





