[發明專利]URL去重方法、裝置、電子設備及計算機可讀存儲介質有效
| 申請號: | 202010095078.1 | 申請日: | 2020-02-13 |
| 公開(公告)號: | CN111259282B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 周雨陽;馬松松;李相垚;胡享梅 | 申請(專利權)人: | 深圳市騰訊計算機系統有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | url 方法 裝置 電子設備 計算機 可讀 存儲 介質 | ||
1.一種URL去重方法,其特征在于,包括:
獲取待處理的URL;所述URL包括多個字段,各個字段分別設置有對應的字段值;
若所述多個字段中第一預設字段的字段值符合預設條件,獲取多個字段中的第二預設字段的字段值;確定與所述第二預設字段的字段值對應的特殊去重特征正則字段,得到參數字段;其中,所述第二預設字段用于表示特殊去重位置的字段;所述特殊去重位置用于指示應用去重邏輯的字段位置;所述特殊去重特征正則字段的字段值包括針對所述第二預設字段的字段值的正則表達式;
獲取所述多個字段中的匹配邏輯字段的字段值,查詢與所述匹配邏輯字段的字段值對應的計算規則;確定所述參數字段中的參數名;若所述計算規則為合并規則,獲取所述參數字段中的參數值;基于所述多個字段中的域名字段、路徑字段、所述參數名和所述參數值計算得到哈希值;若所述計算規則為排除規則,基于所述域名字段、所述路徑字段和所述參數名計算得到哈希值;
若所述哈希值與預存的記錄信息中的至少一個哈希值相匹配,刪除所述URL以進行去重。
2.根據權利要求1所述的URL去重方法,其特征在于,所述獲取待處理的URL之前,還包括:
獲取初始URL,將所述初始URL拆分為所述多個字段;
基于預設的轉換信息分別確定與各個字段對應的所述字段值,得到待處理的所述URL。
3.根據權利要求1所述的URL去重方法,其特征在于,所述第一預設字段包括去重字段、所述域名字段和所述路徑字段;
所述多個字段中第一預設字段的字段值符合預設條件,包括如下情況:
所述去重字段為第一預設值,所述域名字段與預設域名相匹配,且所述路徑字段與預設路徑相匹配。
4.根據權利要求1所述的URL去重方法,其特征在于,所述確定所述參數字段中的參數名,包括:
獲取所述參數字段的傳遞形式,基于所述傳遞形式確定所述參數名?在所述參數字段中的位置;
基于所確定的位置從所述參數字段中提取所述參數名。
5.根據權利要求1所述的URL去重方法,其特征在于,還包括:
若所述哈希值與預存的所述記錄信息中的任一哈希值均不匹配,將所述URL寫入去重后的URL集合。
6.根據權利要求5所述的URL去重方法,其特征在于,還包括:
將所述哈希值存儲于所述記錄信息中以對所述記錄信息進行更新。
7.一種URL去重裝置,其特征在于,包括:
第一獲取模塊,用于獲取待處理的URL;所述URL包括多個字段,各個字段分別設置有對應的字段值;
確定模塊,用于若所述多個字段中第一預設字段的字段值符合預設條件,獲取多個字段中的第二預設字段的字段值;確定與所述第二預設字段的字段值對應的特殊去重特征正則字段,得到參數字段;其中,所述第二預設字段用于表示特殊去重位置的字段;所述特殊去重位置用于指示應用去重邏輯的字段位置;所述特殊去重特征正則字段的字段值包括針對所述第二預設字段的字段值的正則表達式;
第二獲取模塊,用于獲取所述多個字段中的匹配邏輯字段的字段值,查詢與所述匹配邏輯字段的字段值對應的計算規則;確定所述參數字段中的參數名;若所述計算規則為合并規則,獲取所述參數字段中的參數值;基于所述多個字段中的域名字段、路徑字段、所述參數名和所述參數值計算得到哈希值;若所述計算規則為排除規則,基于所述域名字段、所述路徑字段和所述參數名計算得到哈希值;
去重模塊,用于若所述哈希值與預存的記錄信息中的至少一個哈希值相匹配,刪除所述URL以進行去重。
8.一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現權利要求1-6任一項所述的URL去重方法。
9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機程序,該程序被處理器執行時實現權利要求1-6任一項所述的URL去重方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市騰訊計算機系統有限公司,未經深圳市騰訊計算機系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010095078.1/1.html,轉載請聲明來源鉆瓜專利網。





