[發明專利]對URL進行分類的方法和裝置有效

申請號：	201510733512.3	申請日：	2015-11-03
公開（公告）號：	CN106649384B	公開（公告）日：	2019-07-09
發明（設計）人：	趙鈞;石屹嶸;黃磊;邱晨旭	申請（專利權）人：	中國電信股份有限公司
主分類號：	G06F16/955	分類號：	G06F16/955
代理公司：	中國國際貿易促進委員會專利商標事務所 11038	代理人：	方亮
地址：	100033 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	url 進行分類方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種對URL進行分類的方法和裝置，涉及大數據和互聯網技術領域，其中，方法包括：獲取訪問URL的各用戶的用戶特征信息和各用戶訪問該URL的訪問次數，所述用戶特征信息包括基于用戶歷史上網行為確定的用戶標簽和各用戶標簽的權重；根據獲取到的各用戶的用戶特征信息和各用戶訪問URL的訪問次數確定URL特征信息，所述URL特征信息包括URL的網頁類型和各網頁類型的權重；根據所述URL特征信息對所述URL進行分類。本發明可以提高URL分類的效率。

技術領域

本發明涉及大數據和互聯網技術領域，尤其是一種對URL(Uniform ResourceLocator，統一資源定位符)進行分類的方法和裝置。

背景技術

目前，基于DPI(Deep Packet Inspection，深度包檢測)數據分析用戶的上網行為主要是通過URL地址庫匹配用戶訪問的網址，然后對用戶打標簽來實現。

URL地址庫一般采用網頁內容提取和識別技術來對URL進行分類來構建，但是，本發明的發明人發現，采用網頁內容提取和識別技術對URL進行分類的方式具有如下缺點：

一是由于需要針對不同的網站設計個性化算法，因此，對URL進行分類時的工作量大，效率低；

二是在不同的網站改版后，需要通過人工辨別或重新識別來重新對URL進行分類，URL地址庫無法自動更新。

發明內容

本發明實施例所要解決的其中一個技術問題是：解決URL分類效率低的問題。

根據本發明的一方面，提供一種對URL進行分類的方法，包括：獲取訪問URL的各用戶的用戶特征信息和各用戶訪問該URL的訪問次數，所述用戶特征信息包括基于用戶歷史上網行為確定的用戶標簽和各用戶標簽的權重；根據獲取到的各用戶的用戶特征信息和各用戶訪問URL的訪問次數確定URL特征信息，所述URL特征信息包括URL的網頁類型和各網頁類型的權重；根據所述URL特征信息對所述URL進行分類。

在一個實施例中，所述根據獲取到的各用戶的用戶特征信息和各用戶訪問URL的訪問次數確定URL特征信息包括：根據u_j＝(x_j1×k_j1，x_j2×k_j2，…x_jn×k_jn)×p_j/P計算訪問該URL的每個用戶j的標簽向量u_j，其中j為正整數，1≤j≤S，S為訪問該URL的用戶總數，x_jn為用戶j的用戶標簽，k_jn為用戶標簽x_jn的權重，jn為正整數，p_j為用戶j訪問該URL的訪問次數，P為所有用戶訪問該URL的總訪問次數；將各用戶j的標簽向量u_j中相同用戶標簽的權重累加，并按累加后的用戶標簽的系數的大小對用戶標簽進行排序，得到該URL的標簽向量y＝(x₁×c₁，x₂×c₂，…，x_t×c_t)，其中x_t為用戶標簽，用戶標簽x_t的系數c_t為S個用戶的標簽向量u_j中與x_t相同的用戶標簽的權重之和；從URL的標簽向量y中選擇用戶標簽的系數最大的前m個用戶標簽x₁，x₂，…x_m作為該URL的網頁類型，并將作為網頁類型x_i的權重。