[發明專利]網址的分類方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202011155971.5 | 申請日: | 2020-10-26 |
| 公開(公告)號: | CN112231481A | 公開(公告)日: | 2021-01-15 |
| 發明(設計)人: | 鄒安寧 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F16/955 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 李文淵 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網址 分類 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種網址的分類方法,其特征在于,所述方法包括:
獲取待分類網址,對所述待分類網址進行字段切分后得到對應第一節點關系的目標字段;
獲取目標聚類結構樹;所述目標聚類結構樹為將樣本結構樹中節點數量滿足條件的第一目標層級的節點合并后得到,所述樣本結構樹為根據樣本網址對應的字段構建的結構樹;
按所述第一節點關系將各個所述目標字段與所述目標聚類結構樹中的各個節點進行逐層匹配;
當各個所述目標字段與目標路徑中的各個節點相匹配時,根據所述目標路徑確定所述待分類網址的網址類別;所述目標路徑為所述目標聚類結構樹中從根節點到葉子節點的路徑。
2.根據權利要求1所述的方法,其特征在于,所述按所述第一節點關系將各個所述目標字段與所述目標聚類結構樹中的各個節點進行逐層匹配,包括:
按所述第一節點關系在所述目標聚類結構樹中逐層確定與各個所述目標字段相匹配的節點,得到目標節點;
當各個所述目標節點在所述目標聚類結構樹中構成從根節點到葉子節點的路徑時,判定各個所述目標字段與目標路徑中的各個節點相匹配。
3.根據權利要求2所述的方法,其特征在于,所述按所述第一節點關系在所述目標聚類結構樹中逐層確定與各個所述目標字段相匹配的節點,得到目標節點之后,還包括:
當各個所述目標節點在所述目標聚類結構樹中無法構成從根節點到葉子節點的路徑時,將各個所述目標字段按所述第一節點關系疊加至所述目標聚類結構樹中,得到待合并結構樹;
當獲取到聚類指令時,對所述待合并結構樹中節點數量滿足條件的第二目標層級的節點進行合并,得到聚類更新結構樹;所述聚類更新結構樹,用于在獲取到新的待分類網址時對所述新的待分類網址進行分類。
4.根據權利要求1所述的方法,其特征在于,所述獲取目標聚類結構樹之前,還包括:
獲取樣本網址,對所述樣本網址進行字段切分后得到對應第二節點關系的樣本字段;
按所述第二節點關系對各個所述樣本字段進行結構樹的構建,得到所述樣本結構樹;
逐層對所述樣本結構樹進行節點合并操作,以在訪問到所述第一目標層級時將所述第一目標層級中的節點合并為一個任意匹配節點,并將所述第一目標層級中各個節點的子節點合并為所述任意匹配節點的子節點;所述任意匹配節點能夠與任意節點相匹配;
將節點合并后的樣本結構樹作為所述目標聚類結構樹。
5.根據權利要求4所述的方法,其特征在于,所述獲取樣本網址,包括:
接收前端監控系統發送的針對目標動態網頁的網址;
將所述針對目標動態網頁的網址添加至網址集合中,并對所述網址集合進行重復網址去除處理;
當所述網址集合中的網址數量大于或等于網址數量閾值時,判定聚類條件到達,將所述網址集合中的網址確定為所述樣本網址。
6.根據權利要求4所述的方法,其特征在于,所述按所述第二節點關系對各個所述樣本字段進行結構樹的構建,得到所述樣本結構樹,包括:
按所述第二節點關系依次將各個所述樣本字段配置為所述樣本結構樹中的節點;其中,相同的樣本字段在所述樣本結構樹中共用節點。
7.根據權利要求4所述的方法,其特征在于,所述在訪問到所述第一目標層級時將所述第一目標層級中的節點合并為一個任意匹配節點,包括:
獲取各個所述樣本字段的標識攜帶信息;所述標識攜帶信息用于指示對應的樣本字段是否攜帶合并禁止標識;
當根據所述標識攜帶信息確定當前訪問層級中各個節點對應的樣本字段未攜帶所述合并禁止標識時,確定所述當前訪問層級的節點數量;所述當前訪問層級為當前訪問到的所述目標聚類結構樹中的節點層級;
當所述當前訪問層級的節點數量大于或等于節點數量閾值時,判定所述當前訪問層級為所述第一目標層級,將所述當前訪問層級中的各個節點合并為一個任意匹配節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011155971.5/1.html,轉載請聲明來源鉆瓜專利網。





