[發明專利]一種快速的多關鍵字文本匹配方法及裝置有效
| 申請號: | 201511009718.8 | 申請日: | 2015-12-29 |
| 公開(公告)號: | CN106933818B | 公開(公告)日: | 2019-06-11 |
| 發明(設計)人: | 孫寶建;張靜;魏效征;王志海;安鵬;牛立偉 | 申請(專利權)人: | 北京明朝萬達科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100097 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 快速 關鍵字 文本 匹配 方法 裝置 | ||
本發明公開了一種快速的多關鍵字文本匹配方法及其裝置,通過建立關鍵詞的多值索引來解決關鍵詞重復和關鍵詞分組的問題,通過對大文件進行分塊、塊尾小部分重復搜索以及內存映射來解決占用內存過大和性能問題。
技術領域
本申請涉及語義檢索,尤其涉及一種基于關鍵字的文本匹配方法及裝置。
背景技術
在企業中提到數據保護,大家可能常常想起文檔,很少有人會關注文檔中的內容,對數據的管理也比較單一,通常就是全加密、全授權,對文檔的重要性不做區分,隨著社會的發展,文檔的格式越來越多,安全事件的不斷爆發,使得人們對數據的關注度發生了變化,數據也分成了結構化數據和非結構化數據,更加的關注文檔內容中的敏感信息,使用文檔的應用有哪些,對不同類型的文檔、含有不同內容的文檔有區別的管理和存儲。
以前要管控數據,大多是強管控,直接全部隔離,或者全部加密,我們稱之為囚籠、枷鎖式的管控,在實際的數據生產、使用、流轉中帶來了很多不必要的麻煩,人們需要更加靈活的方式來處理數據,智能化的數據安全管控應運而生,企業管理員可以按照數據的重要程度有針對性的對數據進行控制。核心能力就是文檔的內容識別,通過識別可以擴展到對數據的防控。內容識別應該具備的識別能力具體來說有關鍵字、正則表達式、文檔指紋、文檔聚類等。
基于內容的基礎檢測技術中通常有三種方式:正則表達式檢測、關鍵字檢測和關鍵字對檢測。基礎檢測方法采用常規的檢測技術進行內容搜索和匹配,比較常見的都是正則表達式和關鍵字,此兩種方法可以對明確的敏感信息內容進行檢測。
基于關鍵字的內容搜索一般分為單模算法和多模算法兩種。每次找一個詞用單模算法,要同時查找多個詞用多模算法。多模算法常用的有AC算法、WM算法、正則表達式等。采用AC算法可以一次性找出所有給定的詞。
目前,現有技術存在以下缺點:
(1)只是簡單的使用AC算法多次查找文本,不能處理關鍵詞重復,關鍵詞分組、關鍵詞計數等問題,并不能完全發揮AC算法的優勢。有的甚至使用的是單模算法做文本匹配。
(2)需要多次讀取文件內容進行匹配,或者讀取整個文本內容到內存再用AC算法匹配,匹配速度慢,占用內存較大。
發明內容
本發明提出一種基于快速的文本匹配方法,用于快速搜索文本內容。
本發明解決的技術問題:
本發明在常規多模算法的基礎上合并多組要搜索的關鍵詞在一起,通過建立關鍵詞的多值索引來解決關鍵詞重復和關鍵詞分組的問題。通過對大文件分塊內存映射和內存塊拼接解決占用內存過大和性能問題。
本發明的技術方案:
本發明提供一種快速的多關鍵字文本匹配方法,包括以下步驟:(1)建立匹配規則,一條匹配規則包含多個關鍵詞組,該多個關鍵詞組之間是或的關系,一個關鍵詞組包含多個關鍵詞以及該關鍵詞組的詞頻閾值,組內關鍵詞與關鍵詞之間是等價關系,定義關鍵詞組內關鍵詞出現的次數和為詞頻,若某關鍵詞組的詞頻超過該關鍵詞組的詞頻閾值則認為該關鍵詞組所屬的匹配規則命中;(2)建立關鍵詞的多值索引,使不同匹配規則或不同關鍵詞組之間重復的關鍵詞對應多條“匹配規則+關鍵詞組”組合,由此,通過關鍵詞即可找到對應的所有“匹配規則+關鍵詞組”組合,對找到的所有“匹配規則+關鍵詞組”組合內的該關鍵詞分別進行計數,即重復的關鍵詞在不同的關鍵詞組內分別計數,相當于每個關鍵詞組都獨立的進行一次匹配,從而使一次匹配達到多次匹配的效果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明朝萬達科技股份有限公司,未經北京明朝萬達科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201511009718.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型高效的純水制備機
- 下一篇:城市環衛中水回用裝置





