[發明專利]一種基于網絡日志的用戶行為分析系統及方法在審
| 申請號: | 201910801141.6 | 申請日: | 2019-08-28 |
| 公開(公告)號: | CN110717089A | 公開(公告)日: | 2020-01-21 |
| 發明(設計)人: | 姜松浩;王博;凡文舉;趙麗;孫晉龍;孫發強;武義涵 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心;長安通信科技有限責任公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958 |
| 代理公司: | 11681 北京惠智天成知識產權代理事務所(特殊普通合伙) | 代理人: | 劉瑩瑩 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶行為分析系統 分布式數據采集 數據分析模塊 互聯網用戶 管理模塊 日志信息 數據清洗 網絡日志 網站顯示 網站資源 行為趨勢 行為日志 頁面模塊 互聯網 日志 多層 網站 個性化 統計 分析 量化 網絡 開發 | ||
本發明公開了一種基于網絡日志的用戶行為分析系統及方法。所述系統包括分布式數據采集模塊、基于hdfs的多層數據清洗和管理模塊、數據分析模塊和網站顯示頁面模塊。所述系統基于用戶在互聯網上的行為所產生的日志而開發的,該系統通過收集用戶在互聯網上的行為日志,對這些日志信息進行充分的分析與統計,得出用戶在網絡上的行為趨勢及變動方向、網站資源的統計等方面的信息,實現對互聯網用戶、網站的量化以及個性化分析。
技術領域
本發明屬于互聯網領域,具體涉及一種基于網絡日志的用戶行為分析方法及系統。
背景技術
隨著互聯網的發展,在電子商務、電子政務、電子服務、休閑娛樂等各個領域都產生了大量的用戶網站,用戶在網絡上瀏覽這些網站及頁面的時候就會產生海量的行為日志,這些海量的日志信息包含了大量的隱藏價值,通過對用戶行為信息的研究,可以從中發現用戶在訪問網站時所表現出來的規律、個性化的習慣等信息,從而為提升用戶體驗、精準營銷、信息推送等提供科學、準確的依據,同時可以根據規律和用戶行為偏好,對網站的頁面布局、功能完善、系統架構做出更加優化的調整。針對用戶行為的研究與應用,最有效的手段是記錄用戶的所有行為帶來的全部用戶行為信息,并對全部的用戶行為信息進行統計、分析。但是用戶的各種行為在網絡上分散開來,目前很多國內外的用戶行為分析系統都是基于部分網站的web日志進行的分析,針對大規模、不同類型的網站很難進行統一的分析與挖掘。
發明內容
針對背景技術中的問題,本發明提出了一種于網絡日志的用戶行為分析系統。本發明結合現有的分布式網絡爬蟲、云計算、知識發現等相關技術,實現了從分散的行為日志的獲取,到各類別數據統一的清洗和數據結構的統一設計,再到原始數據的統一存儲,進而使用大數據計算加算法分析的手段對數據進行處理,最終從龐大的用戶行為信息中得出各行為之間的關系、發現突出的信號點,將這些看似分散的用戶行為轉化為有價值的數據產品。
為了實現上述目的,本發明的具體技術方案如下:
一種基于網絡日志的用戶行為分析系統,所述系統包括分布式數據采集模塊、基于hdfs的多層數據清洗和管理模塊、數據分析模塊和網站顯示頁面模塊;
所述分布式數據采集模塊用于對各領域不同網站進行用戶行為數據的抓取,構建成基本數據層;
所述基于hdfs的多層數據清洗和管理模塊用于對不同領域數據的劃分,針對數據特性,開發各自的數據清洗規則以及數據計算的算法;
所述數據分析模塊用于根據細化到個體的數據進行統計分析,得出整個分類、領域、系統的宏觀數據;
所述網站顯示頁面模塊用于展示所述系統對所有用戶行為分析之后的統計結果;
其中分布式數據采集模塊作為該系統的數據來源,是整個系統的數據支撐模塊,基于hdfs的多層數據清洗和管理模塊是對分布式數據采集模塊所提供的數據的深層次的清洗,形成規范化、統一性的數據來進行管理和存儲,由數據分析模塊對存儲于hdfs之上清洗之后的數據進行統計分析,得出可用于網站顯示的宏觀數據。
作為一種優選的方案,所述分布式數據采集模塊包括網絡爬蟲單元,所述網絡爬蟲單元用于獲取用戶在多個領域的行為路徑數據;
所述分布式數據采集模塊還包括自動報警單元,所述自動報警單元用于對爬蟲數據進行實時監控。所述自動報警單元是在分布式爬蟲系統之上kfaka和mongodb相結合開發的。
作為一種優選的方案,所述網站顯示頁面模塊包括首頁、系統覆蓋數據的多角度展示頁面、不同領域網站信息的分類展示頁面、單個網站單個用戶數據的搜索展示頁面。
作為一種優選的方案,所述系統覆蓋數據的多角度展示頁面包括系統覆蓋的網站量、用戶量、分析的數據量、網站按領域劃分的占比、用戶的年齡分布和地域分布信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心;長安通信科技有限責任公司,未經國家計算機網絡與信息安全管理中心;長安通信科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910801141.6/2.html,轉載請聲明來源鉆瓜專利網。





