[發(fā)明專利]一種https環(huán)境下用戶行為分析的方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 201710122538.3 | 申請日: | 2017-03-03 |
| 公開(公告)號: | CN106878438A | 公開(公告)日: | 2017-06-20 |
| 發(fā)明(設計)人: | 白晟;張偉 | 申請(專利權(quán))人: | 久遠謙長(北京)技術服務有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;H04L29/06;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100085 北京市昌*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 https 環(huán)境 用戶 行為 分析 方法 系統(tǒng) | ||
1.一種https環(huán)境下用戶行為分析的方法,其特征在于,包括:
步驟1)對需要分析的互聯(lián)網(wǎng)資源頁面建立內(nèi)容特征庫,特征庫由多個特征碼組成,特征碼包括:https請求URL的Host、頁面大小、頁面包含資源內(nèi)容、資源內(nèi)容大小、動態(tài)資源信息、內(nèi)嵌URLs及數(shù)量之一或者組合;
步驟2)對用戶訪問互聯(lián)網(wǎng)資源的https報文數(shù)據(jù)逐條分析,提取特征信息,以與特征碼匹配分析;
步驟3)將提取特征信息的日志與內(nèi)容特征庫中的特征碼匹配,還原用戶真實訪問行為,并做進一步的分析和統(tǒng)計。
2.根據(jù)權(quán)利要求1所述的https環(huán)境下用戶行為分析的方法,其特征在于,步驟1)中,針對需要分析的網(wǎng)站通過爬蟲技術爬取所需要分析的每個網(wǎng)頁,根據(jù)爬取網(wǎng)頁的數(shù)據(jù)建立網(wǎng)頁特征庫。
3.根據(jù)權(quán)利要求1或2所述的https環(huán)境下用戶行為分析的方法,其特征在于,步驟2)中,提取的特征信息選自以下:
訪問URL的Host/Domain;
https請求頁面未緩存部分的總長度;
https請求頁面中未緩存的圖片或者CSS加載資源的數(shù)量;
頁面加載的每一個資源對象的大小;
https請求發(fā)生的時間。
4.根據(jù)權(quán)利要求3所述的https環(huán)境下用戶行為分析的方法,其特征在于,步驟2)中,基于以上1個或多個特征信息組合形成一個或多個特征指紋,通過一定時間范圍內(nèi)用戶訪問https請求確定用戶訪問路徑。
5.根據(jù)權(quán)利要求1所述的https環(huán)境下用戶行為分析的方法,其特征在于,步驟3)中將提取特征信息的日志與內(nèi)容特征庫中的特征碼匹配具體選自以下的方法:
通過指紋組合唯一匹配;
如果無法通過指紋組合唯一匹配時,可以通過訪問該網(wǎng)頁時同時加載的資源或URL序列多條件匹配;
從頁面中獲取3-5個必定每次會加載的對象內(nèi)容,同時獲取這些對象內(nèi)容的大小和host信息,依據(jù)每次加載頁面訪問對象序列的host信息和對象大小作為指紋信息進行匹配。
6.一種https環(huán)境下用戶行為分析的系統(tǒng),其特征在于,包括:
特征庫建立單元,用于對需要分析的互聯(lián)網(wǎng)資源頁面建立內(nèi)容特征庫,特征庫由多個特征碼組成,特征碼包括:https請求URL的Host、頁面大小、頁面包含資源內(nèi)容、資源內(nèi)容大小、動態(tài)資源信息、內(nèi)嵌URLs及數(shù)量之一或者組合;
特征碼匹配單元,用于對用戶訪問互聯(lián)網(wǎng)資源的https報文數(shù)據(jù)逐條分析,提取特征信息,以與特征碼匹配分析;
行為還原單元,用于將提取特征信息的日志與內(nèi)容特征庫中的特征碼匹配,還原用戶真實訪問行為,并做進一步的分析和統(tǒng)計。
7.根據(jù)權(quán)利要求6所述的https環(huán)境下用戶行為分析的系統(tǒng),其特征在于,所述特征庫建立單元,針對需要分析的網(wǎng)站通過爬蟲技術爬取所需要分析的每個網(wǎng)頁,根據(jù)爬取網(wǎng)頁的數(shù)據(jù)建立網(wǎng)頁特征庫。
8.根據(jù)權(quán)利要求6或7所述的https環(huán)境下用戶行為分析的系統(tǒng),其特征在于,所述特征碼匹配單元,提取的特征信息選自以下:
訪問URL的Host/Domain;
https請求頁面未緩存部分的總長度;
https請求頁面中未緩存的圖片或者CSS加載資源的數(shù)量;
頁面加載的每一個資源對象的大小;
https請求發(fā)生的時間。
9.根據(jù)權(quán)利要求8所述的https環(huán)境下用戶行為分析的系統(tǒng),其特征在于,所述特征碼匹配單元,進一步用于基于以上1個或多個特征信息組合形成一個或多個特征指紋,通過一定時間范圍內(nèi)用戶訪問https請求確定用戶訪問路徑。
10.根據(jù)權(quán)利要求6所述的https環(huán)境下用戶行為分析的系統(tǒng),其特征在于,所述行為還原單元,將提取特征信息的日志與內(nèi)容特征庫中的特征碼匹配具體選自以下的方法:
通過指紋組合唯一匹配;
如果無法通過指紋組合唯一匹配時,可以通過訪問該網(wǎng)頁時同時加載的資源或URL序列多條件匹配;
從頁面中獲取3-5個必定每次會加載的對象內(nèi)容,同時獲取這些對象內(nèi)容的大小和host信息,依據(jù)每次加載頁面訪問對象序列的host信息和對象大小作為指紋信息進行匹配。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于久遠謙長(北京)技術服務有限公司,未經(jīng)久遠謙長(北京)技術服務有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710122538.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于會話和協(xié)議識別HTTPS端口數(shù)據(jù)的方法
- 一種訪問HTTPS網(wǎng)站的方法、裝置及系統(tǒng)
- 基于證書及信任鏈的通信方法和裝置
- 自簽名SSL證書處理系統(tǒng)及方法
- 報文處理方法、裝置、設備及存儲介質(zhì)
- 一種基于DNS over HTTPS的排名統(tǒng)計方法、裝置、系統(tǒng)及介質(zhì)
- https協(xié)議實時監(jiān)控方法、系統(tǒng)、電子設備及存儲介質(zhì)
- 一種用于報文處理設備的HTTPS透明防護方法
- 網(wǎng)站支持https協(xié)議的方法和裝置
- 一種基于在線訓練算法的惡意HTTPS流量智能分析方法
- 環(huán)境服務系統(tǒng)以及環(huán)境服務事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測終端和環(huán)境檢測系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計裝置和環(huán)境估計方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測儀(環(huán)境貓)





