[發明專利]一種用戶實際訪問網址的識別方法及裝置有效
| 申請號: | 202010467463.4 | 申請日: | 2020-05-28 |
| 公開(公告)號: | CN111611508B | 公開(公告)日: | 2020-12-15 |
| 發明(設計)人: | 翟欣虎;秦益飛;楊正權 | 申請(專利權)人: | 江蘇易安聯網絡技術有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955 |
| 代理公司: | 無錫市匯誠永信專利代理事務所(普通合伙) 32260 | 代理人: | 張歡勇 |
| 地址: | 211100 江蘇省南京市江寧區*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶 實際 訪問 網址 識別 方法 裝置 | ||
本發明提供了一種用戶實際訪問網址的識別方法,包括如下步驟:S01、收集服務器上產生的用戶日志;S02、按第一特征進行分組;S03、將每一組的用戶日志按第二特征進行排序;S04、將已經排好序的每一組用戶日志,按第一合并規則合并為若干小組,每一小組內的用戶日志歸并為該用戶一次訪問所產生的請求日志;S05、對于已經分好的一次訪問產生的若干條請求日志,按第二規則構建多叉樹,遍歷這些請求日志,構建出一棵或者多棵多叉樹;S06、統計上述一棵或者多棵多叉樹的葉子節點的數量,選出其中葉子節點最多的樹的根節點作為該用戶當時實際訪問的網站地址;S07、重復上述步驟,即可識別出用戶實際訪問的網址。該發明具有準確性高、實時性高的優點。
技術領域
本發明涉及了一種用戶實際訪問網址的識別方法及裝置。
背景技術
隨著互聯網技術的飛速發展,使用終端接入運營商服務器并訪問互聯網網站的用戶數量快速增長。通常情況下運營商都需要對所接入用戶的上網行為進行審計,而該審計需要準確的識別出用戶實際的訪問網址。通常情況下記錄用戶訪問的網址最準確的設備是用戶使用的終端設備的瀏覽器,但運營商是無法通過簡單方法拿到用戶使用的終端設備上的數據的,所以最實際可行的方法是通過用戶接入運營商服務器后,通過服務器所產生的用戶訪問日志來進行分析,如圖1所示。
但實際中,對于用戶使用終端設備上的瀏覽器訪問某個互聯網網站的某個頁面時,瀏覽器向網站發出的請求的數量遠大于用戶在瀏覽器中輸入的或者點擊某個鏈接產生的那一條請求。通常情況下用戶訪問一個網站頁面,瀏覽器會發出幾十乃至上百條數量不等的請求給網站服務器,比如用戶實際只打開某個新聞頁面,而瀏覽器實際會額外請求若干張網頁上的圖片,若干段廣告文本,甚至音樂,動畫等。對于用戶接入的運營商的服務器(網關代理等),服務器會把每一條請求都記錄成一條日志,服務器只是處理記錄這些請求,其本身是無法區分出用戶實際訪問的那個鏈接請求的。
基于上述情況,運營商在每時每刻產生的海量訪問記錄面前,對用戶上網行為的審計將會產生較大偏差,例如某個用戶在一小時內只訪問了不到10個頁面,但被運營商的網關服務器記錄了近1000條請求日志,其中包含了大部分的圖片,廣告等信息,而這些信息對審計來說并沒有什么價值,用戶實際訪問的網址被掩埋在大多數沒有價值的數據中。所以相對準確的識別出用戶實際訪問的網址將對運營商的用戶行為審計產生關鍵的作用。
從海量訪問日志中識別出用戶實際訪問的網址有一些方法,最常見的是過濾合并方法,例如將訪問日志中的URL字段中包含jpeg、mp3、js、css等關鍵字的日志過濾掉,將剩下的日志中相鄰的且URL字段相同的多條日志合并為一條,將這些日志識別為用戶實際訪問的網址。但是,因為非用戶實際訪問的網址,也就是瀏覽器根據網頁情況自動發送的請求,這些請求中除了一些可以被簡單通過關鍵字過濾掉的以外,還有很大一部分是和用戶實際訪問的網址從結構來看沒有區別,無法區分。這種情況下通過簡單合并的結果會多出大量的誤報日志,嚴重影響后續審計的準確性。
還有一種通過大量數據統計的方法,例如,不斷的記錄訪問網站用戶的用戶名列表,以及所有被訪問的URL的清單,同時也記錄兩者的對應關系,該方法認為,真正被用戶訪問的URL的訪問頻率會相對較低,當數量足夠大時,通過計算URL清單中每個URL被訪問的頻率(一段時間內該URL被訪問的次數/所有訪問過該URL的用戶總數),通過人工設定一個經驗閾值,低于該閾值的URL則判定為用戶實際訪問的網址。這種方法識別的準確性完全依賴預先統計的數據的數量以及覆蓋面,當數據量不夠或者覆蓋面較小的時候,識別的準確性依然會大幅下降。同時因為需要預先統計數據,識別的實時性也不能保證。
發明內容
為了解決背景技術中所存在的問題,本發明提出了一種用戶實際訪問網址的識別方法及方法。
一種用戶實際訪問網址的識別方法,包括如下步驟:
S01、按預設頻率/周期收集服務器上產生的用戶日志;
S02、將所收集的用戶日志按第一特征進行分組;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇易安聯網絡技術有限公司,未經江蘇易安聯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010467463.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種波形電熱元件吊掛裝置
- 下一篇:一種云渲染的系統與方法





