[發明專利]基于過濾會話實現提取頁面信息的方法及裝置有效
| 申請號: | 201710890000.7 | 申請日: | 2017-09-27 |
| 公開(公告)號: | CN109948034B | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 文锃 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/957 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 過濾 會話 實現 提取 頁面 信息 方法 裝置 | ||
1.一種基于過濾會話實現提取頁面信息的方法,其特征在于,所述方法包括:
根據預置時間周期采集用戶訪問網站所產生的訪問數據,所述訪問數據中包含用戶訪問網站所建立的多個會話,所述會話中包含一序列按照用戶瀏覽網頁順序排列的頁面;
根據預置會話屬性將所述訪問數據中的會話所包含的會話屬性信息存儲在會話信息表中,預置會話屬性是指根據分析用戶訪問行為的需求而預先設置的會話屬性;
根據預置頁面屬性將所述訪問數據中頁面所包含的頁面屬性信息存儲在頁面信息表中,所述預置頁面屬性是指根據分析用戶訪問行為的需求而預先設置的頁面屬性,所述預置頁面屬性至少包含頁面在訪問路徑中的訪問順序信息;
當接收到向會話信息表發起的查詢請求時,解析所述查詢請求中包含的查詢條件,其中,所述會話信息表中包含多個用于存儲會話屬性信息的屬性列以及一個用于存儲會話身份標識ID的標識信息列,所述會話是用戶在瀏覽網站時與網站所建立的一次對話,在一次會話中由于用戶瀏覽網頁行為發生多個頁面跳轉事件,一次會話對應一條訪問路徑,一條訪問路徑包含一序列根據用戶瀏覽網頁順序排列的多個頁面;
根據所述查詢條件,從所述會話信息表中獲取與所述查詢條件匹配的會話信息,所述會話信息中包含會話屬性信息以及會話ID;
根據所述會話信息中包含的會話ID,從頁面信息表中提取與所述會話ID匹配的會話所包含的多個頁面的頁面信息,其中,所述頁面信息表中包含多個用于存儲頁面信息的屬性列以及一個用于存儲會話ID的標識信息列。
2.根據權利要求1所述的方法,其特征在于,所述根據所述會話信息中包含的會話ID,從頁面信息表中提取與所述會話ID匹配的會話所包含的多個頁面的頁面信息包括:
從會話信息中獲取會話ID;
利用所述會話ID查找頁面信息表中標識信息列;
判斷所述標識信息列中是否存在所述會話ID;
若存在,則提取所述會話ID對應的會話所包含的頁面信息。
3.根據權利要求1所述的方法,其特征在于,所述根據所述查詢條件,從所述會話信息表中獲取與所述查詢條件匹配的會話信息包括:
解析所述查詢條件中包含的會話屬性信息;
確定所述會話屬性信息在會話信息表中所對應的屬性列;
從所述屬性列中提取與所述查詢條件中包含的會話屬性信息相匹配的會話屬性信息;
確定所述會話屬性信息所歸屬的會話所對應的會話ID;
從所述會話信息表中提取所述會話ID對應的會話所包含的會話信息;
將所述會話信息存儲在中間結果表里。
4.根據權利要求1-3中任一項所述的方法,其特征在于,所述當接收到向會話信息表發起的查詢請求時,解析所述查詢請求中包含的查詢條件包括:
當接收到向會話信息表發起的查詢請求時,解析所述查詢請求中包含的關鍵字信息;
判斷所述會話信息表的屬性列中是否存在與所述關鍵字信息對應的會話屬性;
若存在,則根據所述會話屬性確定所述查詢請求中包含的查詢條件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710890000.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種垂直領域源數據過濾方法及裝置
- 下一篇:一種分詞詞項權重的計算方法和裝置





