[發(fā)明專(zhuān)利]一種大規(guī)模關(guān)鍵詞匹配方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 200710122231.X | 申請(qǐng)日: | 2007-09-24 |
| 公開(kāi)(公告)號(hào): | CN101398820A | 公開(kāi)(公告)日: | 2009-04-01 |
| 發(fā)明(設(shè)計(jì))人: | 葉潤(rùn)國(guó);周濤;華東明;孫海波;駱擁政;焦玉峰 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京啟明星辰信息技術(shù)有限公司 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 北京市商泰律師事務(wù)所 | 代理人: | 毛燕生 |
| 地址: | 100094北京市海淀區(qū)東北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 大規(guī)模 關(guān)鍵詞 匹配 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)內(nèi)容分析技術(shù)領(lǐng)域,具體涉及一種快速內(nèi)容分析的多關(guān)鍵詞匹配方法。
背景技術(shù)
多關(guān)鍵詞匹配(Multiple?Pattern?String?Matching)解決的問(wèn)題是快速判斷某一數(shù)據(jù)塊中是否包含關(guān)鍵詞集合中的某一或某些關(guān)鍵詞。多關(guān)鍵詞匹配技術(shù)廣泛應(yīng)用于文本處理、網(wǎng)絡(luò)內(nèi)容分析、入侵檢測(cè)、信息檢索和病毒檢測(cè)等領(lǐng)域。
傳統(tǒng)多關(guān)鍵詞匹配方法包括文獻(xiàn)[A.V.Aho,M.J.Corasick.EfficientString?Matching:An?Aid?to?Bibliographic?Search,(中文名稱(chēng):一種用于目錄搜索的高效的字符串匹配方法)Communications?of?the?ACM,1975,18(6):333-340]、文獻(xiàn)[S.Wu,U.Manber.A?Fast?Algorithm?For?Multi-Pattern?Searching(中文名稱(chēng):一種快速的多模式匹配算法).TechnicalReport?TR-94-17,University?of?Arizona.1994:1-11]和文獻(xiàn)[K.G.Anagnostakis,S.Antonatos,M.Polychronakis,and?E.P.Markatos.:A?domain-specific?string?matching?algorithm?for?intrusion?detection(中文名稱(chēng):一種領(lǐng)域相關(guān)的為入侵檢測(cè)設(shè)計(jì)得多模式匹配算法).In?Proceedings?of?IFIPIntemational?Information?Security?Conference(SEC′03),May?2003]等。這些文獻(xiàn)涉及的多關(guān)鍵詞匹配方法都存在一個(gè)理想的應(yīng)用條件,比如,Aho-Corasick方法的最佳應(yīng)用條件為小規(guī)模關(guān)鍵詞場(chǎng)合,Wu-Manber的最佳應(yīng)用條件為中等規(guī)模關(guān)鍵詞應(yīng)用場(chǎng)合,E2XB的最佳應(yīng)用為入侵檢測(cè)場(chǎng)合。這些多關(guān)鍵詞匹配方法在大規(guī)模關(guān)鍵詞應(yīng)用場(chǎng)合下效果并不理想,并不適合實(shí)時(shí)病毒檢測(cè)類(lèi)應(yīng)用場(chǎng)合。實(shí)時(shí)病毒檢測(cè)類(lèi)應(yīng)用場(chǎng)合下的多關(guān)鍵詞匹配具有如下特點(diǎn):1)關(guān)鍵詞數(shù)量非常大,一般在6萬(wàn)到20萬(wàn)條左右;2)關(guān)鍵詞長(zhǎng)度一般比較大,最小為8字節(jié);3)待檢測(cè)文本長(zhǎng)度較大,從幾千字節(jié)到幾兆字節(jié)不等;4)待檢測(cè)文本與任何關(guān)鍵詞匹配的成功概率異常低。
文獻(xiàn)[Erdogan,O.;Pei?Cao,Hash-AV:fast?virus?signature?scanning?bycache-resident?filters(中文名稱(chēng):HASH-AV:一種采用緩存駐留過(guò)濾器的快速病毒特征掃描方法),Global?Telecommunications?Conference,2005.GLOBECOM?apos;05.IEEE?Volume?3,Issue,28?Nov.-2?Dec.2005?Page(s):6pp.]給出了一種針對(duì)病毒檢測(cè)類(lèi)應(yīng)用場(chǎng)合多關(guān)鍵詞匹配特點(diǎn)而設(shè)計(jì)的多關(guān)鍵詞匹配方法:HASH-AV,它構(gòu)建一個(gè)可容納于現(xiàn)代CPU高速緩存中的布隆過(guò)濾器(Bloom?Filter),并巧妙設(shè)計(jì)了一組布隆過(guò)濾器散列函數(shù),通過(guò)依次調(diào)用該組散列函數(shù)來(lái)實(shí)現(xiàn)當(dāng)前窗口中文本串不與任一關(guān)鍵詞匹配的快速判定。由于病毒檢查等應(yīng)用場(chǎng)合下,文本數(shù)據(jù)流與任一關(guān)鍵詞匹配的概率異常低,絕大多數(shù)情況下這種基于布隆過(guò)濾器的快速判定都是成功的,絕大多數(shù)時(shí)候并不需要執(zhí)行代價(jià)昂貴的全關(guān)鍵詞比較操作。與其它關(guān)鍵詞匹配方法相比,該關(guān)鍵詞匹配方法更多地考慮了病毒檢測(cè)領(lǐng)域獨(dú)有的特性,在病毒檢測(cè)應(yīng)用場(chǎng)合表現(xiàn)出了較好的掃描速率。利用布隆過(guò)濾器在判定某一元素是否屬于指定元素集合時(shí)不存在漏報(bào),但是可能存在誤報(bào),特別在布隆過(guò)濾器表示的元素集合較大時(shí)誤報(bào)率更大。理論上來(lái)說(shuō),可以通過(guò)增大布隆過(guò)濾器的位串大小來(lái)降低誤報(bào),但是實(shí)際上很難達(dá)到效果,因?yàn)閷?shí)際情況中構(gòu)造的布隆過(guò)濾器散列函數(shù)并不具有較好的隨機(jī)性。HASH-AV方法采用一個(gè)布隆過(guò)濾器來(lái)表示所要查找的關(guān)鍵詞集合,我們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn),當(dāng)HASH-AV中查找的關(guān)鍵詞集合大于10萬(wàn)時(shí),基于單一布隆過(guò)濾器執(zhí)行當(dāng)前文本不與任何關(guān)鍵詞匹配判定的誤報(bào)率較高,這直接影響了HASH-AV的關(guān)鍵詞匹配效率;同時(shí),在每次文本匹配窗口移動(dòng)后,HASH-AV方法需要基于當(dāng)前文本重新執(zhí)行各布隆過(guò)濾器散列函數(shù),而沒(méi)有考慮當(dāng)前文本串與上一窗口中文本串大部分相同這個(gè)特點(diǎn)。
發(fā)明內(nèi)容
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京啟明星辰信息技術(shù)有限公司,未經(jīng)北京啟明星辰信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710122231.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:一種夾爪機(jī)構(gòu)、測(cè)試插座機(jī)構(gòu)及存儲(chǔ)模組定位機(jī)構(gòu)
- 下一篇:場(chǎng)效應(yīng)晶體管、半導(dǎo)體芯片及半導(dǎo)體裝置
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測(cè)方法和裝置
- 關(guān)鍵詞排名的檢測(cè)方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲(chǔ)介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動(dòng)化否定關(guān)鍵詞方法及裝置
- 一種長(zhǎng)尾關(guān)鍵詞識(shí)別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





