[發明專利]基于大數據的網站用戶行為數據采集方法、系統及應用在審
| 申請號: | 201711147181.0 | 申請日: | 2017-11-17 |
| 公開(公告)號: | CN107908748A | 公開(公告)日: | 2018-04-13 |
| 發明(設計)人: | 甘傲然 | 申請(專利權)人: | 南京感度信息技術有限責任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京科知維創知識產權代理有限責任公司32270 | 代理人: | 段曉玲 |
| 地址: | 210012 江蘇省南京市雨*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據 網站 用戶 行為 采集 方法 系統 應用 | ||
技術領域
本發明涉及一種數據采集方法及系統,具體的說是一種基于大數據的網站用戶行為數據采集方法、系統及應用。
背景技術
目前在大型網站中,需要對登錄和非登錄用戶的行為數據進行采集,網站運營者通過對采集來的數據進行數據分析,幫助改進網站的欄目結構,提升用戶的體驗,以及進行商業化的用戶行為分析,信息推送,廣告投放等。
傳統的網站用戶行為采集方案,基本都是采用在網站應用中部署采集代碼和采集處理程序,通過網站應用本身進行用戶行為數據的采集和收集,將用戶行為數據直接記錄入網站數據庫中或應用本身的日志文件之中,這樣的方案,會帶來三個問題:
(1)網站應用需要承擔除了處理網站業務以外的其它工作,隨著用戶訪問量的增加,網站應用的性能會出現顯著降低,同時網站應用的故障率也逐步提升;
(2)網站應用的數據庫服務需要承受高頻次的用戶行為數據寫入操作,數據庫的數據存儲量日益增加,數據庫的性能逐步降低。伴隨著行為數據的每日遞增,數據庫服務器的運行風險也呈現為遞增趨勢。
(3)當用戶行為數據的數據量變為海量級以后,傳統的數據庫查詢已經無法應對海量級數據的查詢、分析和統計。
此外,對于大型或特大型的門戶網站來說,大型、特大型門戶網站的應用系統基本都是采用分布式集群方式部署在很多的服務器上的,網站系統在部署上提現為應用的多節點化、分散化,這為用戶行為數據的采集帶了很大的困擾,大規模的用戶行為數據、分散的數據文件存儲,已成為制約用戶行為大數據分析的主要矛盾。
本發明提出一種基于大數據的網站用戶行為數據采集方法,包括以下步驟:
(1)網站插碼的步驟,由網站開發人員在網站頁面上進行插碼,插入用戶行為數據采集腳本文件和腳本代碼;
(2)收集用戶行為數據的步驟,當用戶訪問網站頁面時,用戶行為數據采集腳本文件和腳本代碼收集用戶行為數據,并將數據重組成指定規格的用戶行為數據包,通過HTTP協議向用戶行為采集服務器發送;
(3)將用戶行為數據包轉化成用戶行為日志文件的步驟,用戶行為采集服務器接收網頁端發出的用戶行為數據包,并利用OpenResty組件將數據包轉化成用戶行為日志文件;
(4)將用戶行為日志文件發送至數據收集云存儲的步驟,在用戶行為采集服務器上部署Linux Shell腳本,定時將用戶行為日志文件發送至統一的數據收集云存儲上;
(5)將不斷增加的用戶行為日志文件中的數據實時傳輸給大數據存儲的步驟,采用監控數據工具監控數據收集云存儲(NAS)上不斷增加的用戶行為日志文件,并實時的將日志文件中的數據傳輸給大數據存儲;
(6)大數據存儲的步驟,使用HDFS作為大數據存儲,將所有的用戶行為數據存儲于HDFS之中。
進一步優選地,所述OpenResty組件為Lua和Nginx粘合的ngx_lua模塊(Nginx+Lua);所述數據收集云存儲為NAS云存儲;所述監控數據工具為Flume。
進一步優選地,所述將不斷增加的用戶行為日志文件中的數據實時傳輸給大數據存儲的步驟,采用監控數據工具監控數據收集云存儲(NAS)上新增加的用戶行為日志文件,采用增量傳遞的方式實時的將日志文件中的數據傳輸給大數據存儲。
進一步的,本發明還提出一種基于大數據的網站用戶行為數據采集系統,包括網站插碼、用戶行為數據采集服務器、文件數據傳輸部件、數據收集云存儲、文件數據收集部件和HDFS大數據存儲。
所述網站插碼包括用戶行為數據采集腳本文件和腳本代碼;
所述用戶行為數據采集服務器包括采集用戶行為數據采集腳本文件和腳本代碼收集的用戶行為的采集部件,將用戶行為數據重組成指定規格的用戶行為數據包的數據轉換部件,以及通過HTTP協議向用戶行為采集服務器發送用戶行為數據包的發送部件;
所述文件數據傳輸部件包括將用戶行為數據包轉化成用戶行為日志文件的數據轉換部件,以及將用戶行為日志文件發送至數據收集云存儲的傳輸部件;
所述數據收集云存儲包括數據接收部件,以及數據存儲部,所述數據接收部件接收文件數據傳輸部件發來的用戶行為日志文件,所述數據存儲部收集數據接收部件收到的用戶行為日志文件;
所述文件數據收集部件包括監控數據收集云存儲上不斷增加的用戶行為日志文件的數據監控部件,以及實時的將日志文件中的數據傳輸給大數據存儲數據傳輸部件;
所述HDFS大數據存儲包括數據存儲器,支撐存儲器的存儲系統以及用戶行為數據數據庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京感度信息技術有限責任公司,未經南京感度信息技術有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711147181.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





