[發明專利]用于URL分析系統的文件擴展名快速匹配方法和裝置有效
| 申請號: | 201810288551.0 | 申請日: | 2018-04-03 |
| 公開(公告)號: | CN108549679B | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 畢慧;李超;陳思;朱緩;劉剛;李占玉 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心;深圳市任子行科技開發有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/9535;G06F16/903;G06F16/901 |
| 代理公司: | 深圳市順天達專利商標代理有限公司 44217 | 代理人: | 郭偉剛 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 url 分析 系統 文件 擴展名 快速 匹配 方法 裝置 | ||
本發明公開了一種用于URL分析系統的文件擴展名快速匹配方法和裝置。所述方法包括:根據用戶的業務需求,接收所需過濾URL的文件擴展名信息;利用接收到的所需過濾URL的文件擴展名信息,構建快速匹配算法環境;利用構建的快速匹配算法環境,對待檢測URL的文件擴展名進行匹配,過濾掉不符合用戶業務需求的URL。本發明基于用戶的業務需求構建的快速匹配算法環境,該快速匹配算法環境使用字節來標記字符,并利用父節點儲存位置和父節點中字符的索引值來直接定位子節點中字符的儲存位置,而不使用常規的指針索引子節點,節省存儲空間并提升匹配效率,尤其適用于處理海量URL數據,數據處理效率高。
技術領域
本發明涉及URL分析技術領域,特別涉及一種用于URL分析系統的文件擴展名快速匹配方法和裝置。
背景技術
統一資源定位符(Uniform/Universal Resource Locator,簡稱“URL”)是對互聯網上可以得到的資源地址和訪問方法的一種簡潔的表示,互聯網上的每個文件都有一個唯一的URL。隨著互聯網特別是移動互聯網的普及,人們對互聯網的使用也更加便利和頻繁。對于互聯網分析系統,獲取到的URL訪問行為在數量上也快速增長,但其中一部分URL的訪問行為對于分析系統是不需要的,比如圖標文件、腳本文件等,需要在加載到系統分析前過濾掉。
目前URL后綴名匹配方法有以下兩種:
1,定位到URL中的最后一個‘.’字符,然后使用字符串比較函數與配置規則進行逐個比對,該方法實現簡單,但是性能很差;
2,使用常規字典樹算法,可以獲得較高的比對速度但是隨著匹配的規則增加,內存消耗也會快速增加;
而且,上述兩種方法都不適合用于處理海量URL數據,它們的數據處理效率不高,難以達到使用需求。
發明內容
為了解決現有技術的問題,本發明實施例提供了一種用于URL分析系統的文件擴展名快速匹配方法和裝置。所述技術方案如下:
一方面,本發明實施例提供了一種用于URL分析系統的文件擴展名快速匹配方法,所述方法包括:
根據用戶的業務需求,接收所需過濾URL的文件擴展名信息;
利用接收到的所需過濾URL的文件擴展名信息,構建快速匹配算法環境,所述快速匹配算法環境利用字節對文件擴展名字符串中的字符進行順序標記,并采用字典樹儲存方式來依次儲存文件擴展名的字符串;
利用構建的快速匹配算法環境,對待檢測URL的文件擴展名進行匹配,過濾掉不符合用戶業務需求的文件。
在本發明實施例上述的文件擴展名快速匹配方法中,所述利用接收到的所需過濾URL的文件擴展名信息,構建快速匹配算法環境,包括:
利用預設的數組對文件擴展名所需的所有字符按照預設順序進行標記,形成相應的字符索引表,每個所述數組由預設數量的字節構成,每個所述數組中位的總數與所有字符的總數的差值大于等于0且小于8;
構建具有多層的樹形儲存結構,所述樹形儲存結構中每個節點由一個數組構成且用于標記一個字符,每層中節點的數量是其相鄰上層中節點數量乘以所有字符的總數;
對于每個所需過濾文件的擴展名對應的字符串,進行倒序遍歷;
采用字典樹儲存方式,將所需過濾文件的擴展名對應的字符串按照倒序儲存在樹形儲存結構中,形成快速匹配算法環境。
在本發明實施例上述的文件擴展名快速匹配方法中,在所述快速匹配算法環境中,倒序儲存的字符串里相鄰字符在數組中的位置關系按照如下公式關系進行索引:
Qn+1=N1*(Qn*N2+Ln);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心;深圳市任子行科技開發有限公司,未經國家計算機網絡與信息安全管理中心;深圳市任子行科技開發有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810288551.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息采集系統
- 下一篇:一種針對半結構化大數據的空間數據分析方法





