[發明專利]頁面訪問路徑的構建方法及系統在審
| 申請號: | 202011610978.1 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112632446A | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 劉洋 | 申請(專利權)人: | 江蘇蘇寧云計算有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/215 |
| 代理公司: | 北京市萬慧達律師事務所 11111 | 代理人: | 黃玉東 |
| 地址: | 210042 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頁面 訪問 路徑 構建 方法 系統 | ||
本發明公開一種頁面訪問路徑的構建方法及系統,通過優化頁面訪問路徑樹,在提升構建效率的同時降低計算資源的消耗。該方法包括:獲取用戶的訪問會話,訪問會話包括多個不同的訪問頁面;針對訪問會話中的訪問頁面進行頁面清洗并按照采集時間順序編號;從多個訪問頁面中順序識別出每條路徑的入口訪問頁面,將每個入口訪問頁面作為對應路徑的首節點;根據相鄰入口訪問頁面的編號區間將處于區間內的訪問頁面劃分入對應的路徑分區;將屬于各路徑分區的訪問頁面按照由小到大的編號順序一一進行轉入頁面的匹配,獲取每個訪問頁面的匹配關系并構建路徑節點,同時記錄各路徑節點的路徑信息;基于首節點與路徑節點的路徑信息,構建出頁面訪問路徑樹。
技術領域
本發明涉及互聯網技術領域,尤其涉及一種頁面訪問路徑的構建方法及系統。
背景技術
在網站運營及網站分析的業務中,需要了解用戶從進入網站到離開網站的行為是什么,如用戶是否是按照網站設計的導航的路徑在進行瀏覽訪問、每個瀏覽步驟上用戶的流失情況、用戶在離開對應頁面后實際的訪問是什么等等,需要總結出用戶訪問對網站關鍵路徑的鏈路分析,統計各個頁面的來源/跳轉及退出指標,用來識別及優化網站的結構,提高網站訪問及訂單轉化率,提升用戶體驗。
現有技術在分析用戶的路徑行為軌跡時,需要遍歷用戶的所有的行為軌跡數據,并對所有的行為進行多次關聯遍歷運算,才能獲取用戶的路徑信息。當網站的訪問量很大的時候,這種遍歷就會非常的耗費時間以及消耗大量的計算資源。
發明內容
本發明的目的在于提供一種頁面訪問路徑的構建方法及系統,通過優化頁面訪問路徑樹的構建,在提升構建效率的同時降低對計算資源的消耗。
為了實現上述目的,本發明的第一方面提供一種頁面訪問路徑的構建方法,包括:
獲取用戶的訪問會話,所述訪問會話包括多個不同的訪問頁面;
針對訪問會話中的所述訪問頁面進行頁面清洗并按照采集時間順序編號;
從多個所述訪問頁面中順序識別出每條路徑的入口訪問頁面,將每個所述入口訪問頁面作為對應路徑的首節點,并記錄各首節點的路徑信息;
若路徑數量為多個,根據相鄰所述入口訪問頁面的編號區間將處于區間內的所述訪問頁面劃分入對應的路徑分區;或者,若路徑數量為一個將全部所述訪問頁面劃分為一個路徑分區;
將屬于各路徑分區的所述訪問頁面按照由小到大的編號順序一一進行轉入頁面的匹配,獲取每個訪問頁面的匹配關系并構建路徑節點,同時記錄各路徑節點的路徑信息;
基于首節點與路徑節點的路徑信息,構建出頁面訪問路徑樹。
優選地,獲取用戶的訪問會話,所述訪問會話包括多個不同的訪問頁面的方法包括:
獲取預設時間內用戶通過終端訪問網站時瀏覽的多個訪問頁面,按照時間的先后順序匯總后構成訪問會話。
較佳地,針對訪問會話中的所述訪問頁面進行頁面清洗并按照采集時間順序編號的方法包括:
從所述訪問頁面中識別出爬蟲和/或作弊產生的噪音訪問頁面,對所述噪音訪問頁面進行初步清洗剔除;
將保留下的所述訪問頁面在同一訪問會話中,按照采集時間順序編號。
進一步地,對所述噪音訪問頁面進行初步的清洗剔除之后還包括:
在同一訪問會話中,若比對出兩個連續的所述訪問頁面為同一訪問頁面,則對其中靠后的所述訪問頁面進行二次清洗剔除。
優選地,在步驟從多個所述訪問頁面中順序識別出每條路徑的入口訪問頁面,將每個所述入口訪問頁面作為對應路徑的首節點,并記錄各首節點的路徑信息之前還包括:
構建頁面斷點維度表,所述頁面斷點維度表中包括至少一個訪問頁面斷點頁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇蘇寧云計算有限公司,未經江蘇蘇寧云計算有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011610978.1/2.html,轉載請聲明來源鉆瓜專利網。





