[發明專利]一種https環境下用戶行為分析的方法和系統在審
| 申請號: | 201710122538.3 | 申請日: | 2017-03-03 |
| 公開(公告)號: | CN106878438A | 公開(公告)日: | 2017-06-20 |
| 發明(設計)人: | 白晟;張偉 | 申請(專利權)人: | 久遠謙長(北京)技術服務有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;H04L29/06;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100085 北京市昌*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 https 環境 用戶 行為 分析 方法 系統 | ||
技術領域
本發明屬于互聯網領域,涉及一種https環境下用戶行為分析的方法。
背景技術
http用戶訪問請求報文數據一直以來是在互聯網環境下用戶行為分析主要數據來源,通過http報文,可以有效跟蹤用戶行為路徑、內容和頻率,從而分析互聯網用戶的行為習慣、行為預測,從而為企業、投資者等提供有力的決策依據,根據不同用戶制訂并執行詳盡、有效的策略。
隨著互聯網的不斷發展,承載的業務越來越多,特別是終端支付、金融理財等業務的發展,使得數據傳輸的安全性要求越來越高,因此很多應用/Web服務逐步將http切換為https,保證客戶端與服務器間通信安全性,如天貓、淘寶、百度、京東、IOS APP等。
https在http的基礎上加入了TLS/SSL協議,TSL/SSL依靠證書來驗證服務器的身份,并為瀏覽器和服務器之間的通信加密。而原來基于http訪問報文分析的方法已經無法抓取到用戶真實的訪問URL的全部數據,也就無法對用戶的互聯網行為進行深入分析。
目前主要有兩種方式:
方案一:
通過分析https中僅能記錄的host等有限信息粗略分析用戶行為。這種方案,由于https數據中僅能明文獲取用戶訪問請求的host信息,無法記錄到用戶訪問該host下詳細的path從而獲取完整的URL,因此也就無法做到用戶訪問內容的深入分析,不能為決策提供有效的數據支撐。
方案二:
在客戶端與用戶訪問的服務器之間架設Proxy代理,實現對https請求劫持。通過對https請求劫持,可以實現與http完全相同的分析效果,但無法實現對全網用戶行為的分析能力,比較適合企業網絡出口處架設Proxy代理,實現企業內部用戶行為跟蹤和分析,因此該方案存在Proxy代理服務器部署的技術限制、場景限制和成本限制。
發明內容
針對上述問題,本發明通過建立互聯網內容頁面特征庫、結合https可以獲取的有限信息,基于大數據分析技術,對用戶實際訪問內容的準確計算,實現https下用戶互聯網行為分析。
本發明解決上述技術問題所采取的技術方案如下:
一種https環境下用戶行為分析的方法,包括:
步驟1)對需要分析的互聯網資源頁面建立內容特征庫,特征庫由多個特征碼組成,特征碼包括:https請求URL的Host、頁面大小、頁面包含資源內容、資源內容大小、動態資源信息、內嵌URLs及數量之一或者組合;
步驟2)對用戶訪問互聯網資源的https報文數據逐條分析,提取特征信息,以與特征碼匹配分析;
步驟3)將提取特征信息的日志與內容特征庫中的特征碼匹配,還原用戶真實訪問行為,并做進一步的分析和統計。
優選的是,步驟1)中,針對需要分析的網站通過爬蟲技術爬取所需要分析的每個網頁,根據爬取網頁的數據建立網頁特征庫。
優選的是,步驟2)中,提取的特征信息選自以下:
訪問URL的Host/Domain;
https請求頁面未緩存部分的總長度;
https請求頁面中未緩存的圖片或者CSS加載資源的數量;
頁面加載的每一個資源對象的大??;
https請求發生的時間。
優選的是,步驟2)中,基于以上1個或多個特征信息組合形成一個或多個特征指紋,通過一定時間范圍內用戶訪問https請求確定用戶訪問路徑。
優選的是,步驟3)中將提取特征信息的日志與內容特征庫中的特征碼匹配具體選自以下的方法:
通過指紋組合唯一匹配;
如果無法通過指紋組合唯一匹配時,可以通過訪問該網頁時同時加載的資源或URL序列多條件匹配;
從頁面中獲取3-5個必定每次會加載的對象內容,同時獲取這些對象內容的大小和host信息,依據每次加載頁面訪問對象序列的host信息和對象大小作為指紋信息進行匹配。
一種https環境下用戶行為分析的系統,包括:
特征庫建立單元,用于對需要分析的互聯網資源頁面建立內容特征庫,特征庫由多個特征碼組成,特征碼包括:https請求URL的Host、頁面大小、頁面包含資源內容、資源內容大小、動態資源信息、內嵌URLs及數量之一或者組合;
特征碼匹配單元,用于對用戶訪問互聯網資源的https報文數據逐條分析,提取特征信息,以與特征碼匹配分析;
行為還原單元,用于將提取特征信息的日志與內容特征庫中的特征碼匹配,還原用戶真實訪問行為,并做進一步的分析和統計。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于久遠謙長(北京)技術服務有限公司,未經久遠謙長(北京)技術服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710122538.3/2.html,轉載請聲明來源鉆瓜專利網。





