[發(fā)明專利]文本匹配處理方法及裝置在審
| 申請?zhí)枺?/td> | 201911424830.6 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111159362A | 公開(公告)日: | 2020-05-15 |
| 發(fā)明(設(shè)計)人: | 王彬;覃永靖;程詩堯;馬江波 | 申請(專利權(quán))人: | 奇安信科技集團股份有限公司;網(wǎng)神信息技術(shù)(北京)股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 苗曉靜 |
| 地址: | 100088 北京市西城區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 匹配 處理 方法 裝置 | ||
本發(fā)明實施例提供一種文本匹配處理方法及裝置,方法包括:獲取待匹配文本;采用AC自動機對所述待匹配文本進行匹配處理獲得匹配結(jié)果,根據(jù)匹配結(jié)果確定所述待匹配文件的風險類別;其中,所述AC自動機為采用模式串劃分得到的定長模式子串集合構(gòu)建的AC自動機,記錄有定長模式子串在模式串中的索引值。本發(fā)明實施例提供的一種文本匹配處理方法及裝置,通過采用模式串劃分得到的定長模式子串集合構(gòu)建的AC自動機對文本進行匹配處理獲得匹配結(jié)果,然后根據(jù)匹配結(jié)果確定所述待匹配文件的風險類別,實現(xiàn)建立內(nèi)存可控的AC自動機,提高模式匹配的可靠性,保證信息安全。
技術(shù)領(lǐng)域
本發(fā)明涉及文本搜索技術(shù)領(lǐng)域,尤其涉及一種文本匹配處理方法及裝置。
背景技術(shù)
在文本搜索技術(shù)領(lǐng)域中,一般采用AC(Aho-Corasick automaton)自動機進行多模式精確串匹配,以判斷網(wǎng)絡(luò)中文本的安全風險。但該自動機的匹配性能不強依賴于模式串集合數(shù)量。故當“字符集”及“模式串集合數(shù)量”較大時,AC自動機內(nèi)存空間非常大,發(fā)生內(nèi)存溢出錯誤,影響文本匹配,進而影響對網(wǎng)絡(luò)中文本的安全判斷。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的問題,本發(fā)明實施例提供一種文本匹配處理方法及裝置。
本發(fā)明實施例提供一種文本匹配處理方法,包括:
獲取待匹配文本;
采用AC自動機對所述待匹配文本進行匹配處理獲得匹配結(jié)果,根據(jù)匹配結(jié)果確定所述待匹配文件的風險類別;
其中,所述AC自動機為采用模式串劃分得到的定長模式子串集合構(gòu)建的AC自動機,記錄有定長模式子串在模式串中的索引值。
可選地,所述采用AC自動機對所述待匹配文本進行匹配處理獲得匹配結(jié)果,包括:
采用AC自動機對所述待匹配文本進行掃描,獲得所述待匹配文本中的定長模式子串,根據(jù)所述定長模式子串建立模式串匹配進度的映射關(guān)系表,以及根據(jù)所述定長模式子串和所述映射關(guān)系表獲得匹配結(jié)果。
可選地,所述根據(jù)所述定長模式子串建立模式串匹配進度的映射關(guān)系表,以及根據(jù)所述定長模式子串和所述映射關(guān)系表獲得匹配結(jié)果,包括:
更新步驟:獲得當前的定長模式子串,確定當前的定長模式子串是模式串的首個定長模式子串,建立或更新模式串匹配進度的映射關(guān)系表,映射關(guān)系表包括模式串和定長模式子串的索引值;
獲取步驟:確定當前的定長模式子串對應的模式串存在于所述映射關(guān)系表,則獲得當前的定長模式子串的索引值;
判斷步驟:確定當前定長模式子串的索引值和所述映射關(guān)系表中當前定長模式子串對應的模式串對應的索引值是否滿足匹配條件,并更新模式串匹配進度的映射關(guān)系表;
匹配步驟:重復執(zhí)行獲取步驟和判斷步驟,直到對所述待匹配文本掃描完成,確定所述映射關(guān)系表中模式串對應的索引值與時定長模式子串對應的最大索引值相同,則確定模式串匹配成功。
可選地,所述匹配條件包括:當前的定長模式子串的索引值與映射關(guān)系表中當前的定長模式子串對應的模式串對應的索引值之間的差值為1,其中當前的定長模式子串的索引值大于映射關(guān)系表中當前的定長模式子串對應的模式串對應的索引值。
第二方面,本發(fā)明實施例提供一種文本匹配處理裝置,包括:
獲取模塊,用于獲取待匹配文本;
處理模塊,用于采用AC自動機對所述待匹配文本進行匹配處理獲得匹配結(jié)果,根據(jù)匹配結(jié)果確定所述待匹配文件的風險類別;
其中,所述AC自動機為采用模式串劃分得到的定長模式子串集合構(gòu)建的AC自動機,記錄有定長模式子串在模式串中的索引值。
可選地,所述處理模塊具體用于:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于奇安信科技集團股份有限公司;網(wǎng)神信息技術(shù)(北京)股份有限公司,未經(jīng)奇安信科技集團股份有限公司;網(wǎng)神信息技術(shù)(北京)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911424830.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





