[發明專利]一種廣告頁面屏蔽的處理方法有效
| 申請號: | 201611142022.7 | 申請日: | 2016-12-12 |
| 公開(公告)號: | CN106599177B | 公開(公告)日: | 2020-02-14 |
| 發明(設計)人: | 鄭銳韜;李勇波;張恒;孫傲冰;季統凱 | 申請(專利權)人: | 國云科技股份有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/957 |
| 代理公司: | 44332 廣東莞信律師事務所 | 代理人: | 余倫 |
| 地址: | 523808 廣東省東莞市松山湖高*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 廣告 頁面 屏蔽 處理 方法 | ||
1.一種廣告頁面屏蔽的處理方法,其特征在于:所述的方法包括以下幾個步驟:
步驟1:設計一個支持大數據量的存取,并且進行鏈接快速尋找定位的方法,具體實現按網址進行MD5值及哈希值計算,并進行一致性哈希存儲的過程實現;
步驟2:獲取多個瀏覽網站,并從主頁進入并嵌套獲取各個頁面的所有請求鏈接;
步驟3:對各鏈接進行站內與站外的重復性統計,用于后續的是否廣告的閾值判斷;
步驟4:分析各鏈接的重復數量比較靠前的鏈接,并分析出其是廣告鏈接的判斷,并按分析出的大部分數據,進行數量的邏輯回歸分析,得出站內統計數量與站外統計數量的廣告判斷閾值;
步驟5:通過統計并計算出來的廣告判斷閾值,在每次瀏覽網站時對所有的請求鏈接進行閾值統計判斷,超過站內閾值或超過站外閾值的鏈接,相當于是廣告,進行屏蔽;
所述的支持大數據量的存取,并且進行鏈接快速尋找定位的方法是:
(1):依照鏈接的唯一性,按整個鏈接地址作為特征值;
(2):對鏈接地址進行MD5值的計算,得出MD5值,再通過哈希算法,算出從1至N的哈希值;
(3):在數據的存儲結構設計上,設計存儲數據的空間,MD5值的空間及哈希值的空間,通過哈希值設計一個一致性哈希的存儲空間,用于大量數據的快速存儲與讀取。
2.根據權利要求1所述的方法,其特征在于:所述的步驟2是:
選取多個瀏覽網站的主站入口,從主站進入不斷分析各個網站上的所有鏈接,并保存主站的信息;
各網站上的各個頁面有大量的鏈接信息,在進行統計時需按遞歸嵌套的方式不斷進行獲取,并把獲取的信息,按屬于站內的信息與站外的信息進行累計,把最新的累計信息保存到存儲空間上;
不斷循環各個網站的入口及站內鏈接,直到所有鏈接都處理完畢。
3.根據權利要求2所述的方法,其特征在于:
對所有的網站的鏈接請求進行累計完成后,對所有的鏈接統計進行從多到少的排序,大概瀏覽所有鏈接請求信息,判斷出其中一部分的廣告信息;
從站內統計與站外統計及是否廣告信息中,通過線性邏輯回歸分析,計算出站內統計與站外統計的是否為廣告的閾值,通過閾值進行計算判斷鏈接是否為廣告鏈接閾;
對于是否為廣告的鏈接,通過一個標識位進行判斷,用于對閾值判斷失誤的修正。
4.根據權利要求3所述的方法,其特征在于:
在瀏覽網頁時,通過分析獲取網頁的所有鏈接請求,并通過計算出的閾值進行計算判斷,對于是廣告的鏈接,直接進行屏蔽不進行請求;對于非廣告的鏈接按正常的請求進行處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國云科技股份有限公司,未經國云科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611142022.7/1.html,轉載請聲明來源鉆瓜專利網。





