[發明專利]一種用戶實際訪問網址的識別方法及裝置有效
| 申請號: | 202010467463.4 | 申請日: | 2020-05-28 |
| 公開(公告)號: | CN111611508B | 公開(公告)日: | 2020-12-15 |
| 發明(設計)人: | 翟欣虎;秦益飛;楊正權 | 申請(專利權)人: | 江蘇易安聯網絡技術有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955 |
| 代理公司: | 無錫市匯誠永信專利代理事務所(普通合伙) 32260 | 代理人: | 張歡勇 |
| 地址: | 211100 江蘇省南京市江寧區*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶 實際 訪問 網址 識別 方法 裝置 | ||
1.一種用戶實際訪問網址的識別方法,其特征在于,包括如下步驟:
S01、按預設頻率/周期收集服務器上產生的用戶日志;
S02、將所收集的用戶日志按第一特征進行分組;
S03、將每一組的用戶日志按第二特征進行排序;
S04、將已經排好序的每一組用戶日志,按第一合并規則合并為若干小組,每一小組內的用戶日志歸并為該用戶一次訪問所產生的請求日志;
S05、對于已經分好的一次訪問產生的若干條請求日志,按第二規則構建多叉樹,遍歷這些請求日志,構建出一棵或者多棵多叉樹;
S06、統計上述一棵或者多棵多叉樹的葉子節點的數量,選出其中葉子節點最多的樹的根節點作為該用戶當時實際訪問的網站地址;
S07、重復步驟S05-S06,即可得到預設頻率/周期內的所有用戶實際訪問的地址。
2.根據權利要求1所述的用戶實際訪問網址的識別方法,其特征在于:所述第一特征為用戶日志的用戶標識字段。
3.根據權利要求1所述的用戶實際訪問網址的識別方法,其特征在于:所述第二特征為用戶日志的訪問時間字段;并按訪問時間字段的時間先后順序排序。
4.根據權利要求1所述的用戶實際訪問網址的識別方法,其特征在于:步驟S04中,所述第一合并規則為,按相鄰兩條用戶日志的訪問時間的時間間隔的長短進行合并,即當一定時間間隔內存在大于等于預設閾值的日志條數時,則將這些日志歸并為該用戶一次訪問所產生的請求日志。
5.根據權利要求1所述的用戶實際訪問網址的識別方法,其特征在于:所述第二規則為,按URL和Referer字段構建多叉樹,其中將URL字段的內容作為子節點,Referer字段的內容作為父節點。
6.根據權利要求1所述的用戶實際訪問網址的識別方法,其特征在于:步驟S04中,所采用的歸并方法為無監督聚類方法中的基于層次聚類的ROCK,基于密度聚類的Dbscan,基于神經網絡聚類的SOM,或基于統計學聚類的COBWeb。
7.一種用戶實際訪問網址的識別裝置,包括通信接口、處理器、存儲設備及存儲在所述存儲設備上并可在處理器上運行的計算機程序,通信接口用于通信連接服務器,其特征在于:所述處理器執行所述計算機程序時實現權利要求1至6中任一項用戶實際訪問網址的識別方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇易安聯網絡技術有限公司,未經江蘇易安聯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010467463.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種波形電熱元件吊掛裝置
- 下一篇:一種云渲染的系統與方法





