[發明專利]一種面向大規模URL過濾的多模式串匹配算法在審
| 申請號: | 201610813801.9 | 申請日: | 2016-09-10 |
| 公開(公告)號: | CN107818090A | 公開(公告)日: | 2018-03-20 |
| 發明(設計)人: | 余漫游 | 申請(專利權)人: | 長沙有干貨網絡技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410011 湖南省長沙市芙蓉區*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 大規模 url 過濾 模式 匹配 算法 | ||
技術領域
本發明涉及一種多模式串匹配算法,尤其涉及一種面向大規模URL過濾的多模式串匹配算法。
背景技術
對大量有害的URL進行過濾,是目前網絡安全應用系統中所亟需的關鍵技術,目前有七類典型應用需要進行URL過濾,包括:色情內容、垃圾郵件、惡意軟件、漏洞利用、網絡釣魚、代理和可能不受歡迎的應用,對這些造成巨大危害的URL進行過濾,可以有效地對人們上網瀏覽非法、有害、不良信息內容進行控制與管理,創造綠色潔凈的網絡空間環境,在海量的網絡數據中檢測龐大的URL規則集,需要消耗大量的計算資源和存儲資源,如何保證串匹配算法仍然能夠高效實時地運行,是我們當前面臨的一個重大難題;
本文設計了一種適合于大規模URL過濾的多模式串匹配算法——SOGOPT,該算法在經典的SOG算法基礎上,針對URL規則的特點,提出了最優窗口選擇、模式串分組規約這兩種優化技術,大幅度提高了算法的匹配速度,在大規模URL規則集上效果尤其顯著,實驗結果顯示:在100萬URL規則上,SOGOPT算法的匹配速度是原始SOG算法的4.33倍,并且性能遠遠優于其它經典串匹配算法(AC、SBOM、KR、WM),本文設計的算法非常適合于大規模URL實時在線匹配的應用環境。
發明內容
一種面向大規模URL過濾的多模式串匹配算法,其特征在于,SOG算法,SOG算法是面向10萬規模模式串的匹配方法。在隨機數據集上的測試表明,該算法優于眾多其它經典串匹配算法.該算法的基本思想是:首先,將模式串集合 P={p(1),p(2),…,p(r)}規約為一個通配形式的模式串p;然后,使用位并行串匹配算法Shift-OR對p進行搜索;最后,對于可能出現的匹配位置,使用二級哈希和二分搜索進行校驗,以報告所有真正匹配的結果,本質上,SOG算法是一種過濾型串匹配算法,適合于模式串命中較少的應用場景。
一種面向大規模URL過濾的多模式串匹配算法,其特征在于,最優窗口選擇,當模式串長度不相等時,SOG、WM、KR等算法需要從每個模式串中選取一個長度為m的子串作為待查找的目標,這里 m是最短模式串的長度,選取的長度為m的子串稱之為窗口.對于模式串集合P= {p(1),p(2),…,p(r)},其中p(i)=p(i)1p(i)2…p(i)mi有mi-m+1種可供選擇的窗口。
一種面向大規模URL過濾的多模式串匹配算法,其特征在于,模式串分組歸約,SOG是一種過濾型匹配算法,它將模式串集合P={p(1),p(2),…,p(r)}規約為一個通配形式的模式串,然后利用該通配模式串進行粗過濾,排除掉不可能匹配的文本位置.對于剩下的可能出現匹配的文本位置,逐個進行校驗,以報告真正的匹配結果;隨著模式串集合規模的增大,SOG 算法的過濾效果越來越差,需要進行校驗的次數越來越多,大幅度降低了算法的匹配速度,為了解決這個問題,本方法采用模式串分組歸約的方法來改進SOG算法的過濾效果。
模式串分組歸約的基本思想是:將模式串集合P平均分為G組P=P1∪P2∪…∪PG,每一組模式串Pj單獨規約為一個通配形式的模式串^pj(1jG),然后將這G個通配模式^pj拼接到一個機器字中,使用SOG算法進行并行搜索.設機器字位寬為w,因為每個通配模式^pj需要m-q+1比特位來表示,因此最多 可以將模式串集合劃分為 G=w/(m-q+1)組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長沙有干貨網絡技術有限公司,未經長沙有干貨網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610813801.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于情境推理的語義Web服務發現方法
- 下一篇:文檔處理方法及裝置





