[發明專利]一種基于網絡日志的用戶行為分析系統及方法在審
| 申請號: | 201910801141.6 | 申請日: | 2019-08-28 |
| 公開(公告)號: | CN110717089A | 公開(公告)日: | 2020-01-21 |
| 發明(設計)人: | 姜松浩;王博;凡文舉;趙麗;孫晉龍;孫發強;武義涵 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心;長安通信科技有限責任公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958 |
| 代理公司: | 11681 北京惠智天成知識產權代理事務所(特殊普通合伙) | 代理人: | 劉瑩瑩 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶行為分析系統 分布式數據采集 數據分析模塊 互聯網用戶 管理模塊 日志信息 數據清洗 網絡日志 網站顯示 網站資源 行為趨勢 行為日志 頁面模塊 互聯網 日志 多層 網站 個性化 統計 分析 量化 網絡 開發 | ||
1.一種基于網絡日志的用戶行為分析系統,其特征在于,所述系統包括分布式數據采集模塊、基于hdfs的多層數據清洗和管理模塊、數據分析模塊和網站顯示頁面模塊;
所述分布式數據采集模塊用于對各領域不同網站進行用戶行為數據的抓取,構建成基本數據層;
所述基于hdfs的多層數據清洗和管理模塊用于對所述分布式數據采集模塊提供的不同領域數據進行劃分,針對數據特性,開發各自的數據清洗規則以及數據計算的算法;
所述數據分析模塊用于對存儲于hdfs之上清洗之后的數據進行統計分析,得出整個分類、領域、系統的宏觀數據;
所述網站顯示頁面模塊用于展示所述數據分析模塊提供的宏觀數據。
2.根據權利要求1所述的基于網絡日志的用戶行為分析系統,其特征在于,所述分布式數據采集模塊包括網絡爬蟲單元,所述網絡爬蟲單元用于獲取用戶在多個領域的行為路徑數據。
3.根據權利要求2所述的基于網絡日志的用戶行為分析系統,其特征在于,所述網絡爬蟲單元包括自動報警單元,所述自動報警單元用于對爬蟲數據進行實時監控。
4.根據權利要求1所述的基于網絡日志的用戶行為分析系統,其特征在于,所述網站顯示頁面模塊包括首頁、系統覆蓋數據的多角度展示頁面、不同領域網站信息的分類展示頁面、單個網站單個用戶數據的搜索展示頁面。
5.根據權利要求4所述的基于網絡日志的用戶行為分析系統,其特征在于,所述系統覆蓋數據的多角度展示頁面包括系統覆蓋的網站量、用戶量、分析的數據量、網站按領域劃分的占比、用戶的年齡分布和地域分布信息。
6.根據權利要求4所述的基于網絡日志的用戶行為分析系統,其特征在于,所述不同領域網站信息的分類展示頁面包括每個領域下top10網站的詳情信息以及對應每個網站的流量占比、活躍用戶量、PV、UV、PR值。
7.一種基于網絡日志的用戶行為分析方法,其特征在于,所述方法包括如下步驟:
(1)通過分布式數據采集模塊,在網上對各領域不同網站進行用戶行為數據的抓取,構建成基本數據層;
(2)通過對不同領域數據的劃分,針對數據特性以及行業規則,開發各自的數據清洗規則以及數據計算的算法;
(3)通過對用戶行為信息的聚合分組、單用戶行為數據的量化、多用戶數據的分析、網站信息關系的組合、單網站數據的量化、多網站數據的分析、用戶與網站之間的關聯組合形成結構化數據;
(4)使用推薦算法,將用戶對單個網站的瀏覽次數進行層次劃分,形成網站瀏覽等級,通過對該網站所覆蓋用戶訪問次數求和得出該網站總訪問量,根據總訪問量形成網站的排名順序,網站瀏覽總數比網站排名得出網站熱度,網站瀏覽等級乘以網站熱度得出該用戶對該網站的興趣度,根據不同網站之間的網站描述,使用分詞將描述進行分詞,計算兩者之間的交集和對稱差集,交集比對稱差集得出彼此之間的相似度,使用用戶的興趣度乘以該網站和用戶瀏覽最高網站的相似度,得出推薦值,最后將推薦值進行歸一化并排序取topN;
(5)根據形成的個體數據,使用大數據計算技術,對網站以及用戶數據進行匯總,形成量化數據。
8.根據權利要求7所述的基于網絡日志的用戶行為分析方法,其特征在于,在步驟(2)中,在數據清洗時,對一個用戶在多個網站、多個領域的行為信息進行聚合,最終一個用戶在單次的數據分析流程中只保留一條數據,便于對用戶進行個性化的分析;針對網站數據存儲網站詳情信息、網站所包含的用戶ID兩份數據。
9.根據權利要求7所述的基于網絡日志的用戶行為分析方法,其特征在于,在步驟(4)中,分別使用了基于用戶的協同過濾和基于網站的協同過濾來進行用戶和用戶之間行為相似度、網站和網站之間描述相似度的分析,進而進行網站及用戶的個性化推薦,以及為宏觀的數據分析做基層的數據。
10.根據權利要求9所述的基于網絡日志的用戶行為分析方法,其特征在于,采用描述信息相似度算法對用戶、網站相似度分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心;長安通信科技有限責任公司,未經國家計算機網絡與信息安全管理中心;長安通信科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910801141.6/1.html,轉載請聲明來源鉆瓜專利網。





