[發(fā)明專利]一種文本匹配方法、終端設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110375075.8 | 申請日: | 2021-04-08 |
| 公開(公告)號: | CN113076733A | 公開(公告)日: | 2021-07-06 |
| 發(fā)明(設(shè)計)人: | 劉晹;任勇;劉云;李煒;俞權(quán)林;黃義熾 | 申請(專利權(quán))人: | 廈門市巨龍信息科技有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06K9/62 |
| 代理公司: | 廈門市精誠新創(chuàng)知識產(chǎn)權(quán)代理有限公司 35218 | 代理人: | 何家富 |
| 地址: | 361000 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 匹配 方法 終端設(shè)備 存儲 介質(zhì) | ||
本發(fā)明涉及一種文本匹配方法、終端設(shè)備及存儲介質(zhì),該方法中包括:S1:根據(jù)文本匹配所需要的規(guī)則構(gòu)建規(guī)則表達式集合,并定義和加載規(guī)則表達式集合中的規(guī)則表達式匹配時所需的外部資源;S2:將規(guī)則表達式集合解析為樹結(jié)構(gòu),當樹結(jié)構(gòu)中的節(jié)點中存儲的規(guī)則表達式需要與外部資源進行匹配時,該節(jié)點中還包含對應(yīng)的外部資源接口,通過外部資源接口在進行規(guī)則表達式匹配時讀取外部資源;S3:通過樹結(jié)構(gòu)對待匹配文本進行文本匹配。本發(fā)明用于自然語言處理相關(guān)任務(wù)中進行規(guī)則標注,具有很高的實用性,相比傳統(tǒng)的采用正則表達式的方式,功能更為強大、效率更高。
技術(shù)領(lǐng)域
本發(fā)明涉及文本匹配領(lǐng)域,尤其涉及一種文本匹配方法、終端設(shè)備及存儲介質(zhì)。
背景技術(shù)
目前基于規(guī)則的文本匹配通常使用正則表達式,但是使用正則表達式進行匹配存在兩個比較大的問題:1、正則表達式只能定義基于文本字符本身的一些匹配規(guī)則,無法引入外部知識。在自然語言處理相關(guān)的標注任務(wù)中,往往需要在標注規(guī)則中引入一些詞表、統(tǒng)計信息、外部知識等,才能基于規(guī)則達到較好的標注效果。2、如果存在大量的表達式,使用正則表達式需要一個個表達式去匹配文本,效率非常低。在實際的文本標注中往往要定義非常多的表達式對文本進行匹配,這時候在大量表達式中進行高效匹配就很重要了。
發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明提出了一種文本匹配方法、終端設(shè)備及存儲介質(zhì)。
具體方案如下:
一種文本匹配方法,包括以下步驟:
S1:根據(jù)文本匹配所需要的規(guī)則構(gòu)建規(guī)則表達式集合,并定義和加載規(guī)則表達式集合中的規(guī)則表達式匹配時所需的外部資源;
S2:將規(guī)則表達式集合解析為樹結(jié)構(gòu),當樹結(jié)構(gòu)中的節(jié)點中存儲的規(guī)則表達式需要與外部資源進行匹配時,該節(jié)點中還包含對應(yīng)的外部資源接口,通過外部資源接口在進行規(guī)則表達式匹配時讀取外部資源;
S3:通過樹結(jié)構(gòu)對待匹配文本進行文本匹配。
進一步的,當外部資源的匹配需要通過至少兩個規(guī)則表達式進行匹配時,將用于該外部資源匹配的規(guī)則表達式集合解析為樹結(jié)構(gòu)進行存儲,解析后的樹結(jié)構(gòu)的節(jié)點在需要與外部資源進行匹配時包含用于連接外部資源的外部資源接口。
進一步的,樹結(jié)構(gòu)為前綴樹、AC自動機和有限狀態(tài)機中的一種。
進一步的,外部資源包括外部統(tǒng)計信息、詞表和知識庫。
進一步的,當待匹配文本有多個句子組成時,先將待匹配文本切分為句子后,將每個句子與分別與樹結(jié)構(gòu)進行匹配,并對匹配后的結(jié)果進行去重處理。
一種文本匹配終端設(shè)備,包括處理器、存儲器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)本發(fā)明實施例上述的方法的步驟。
一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)本發(fā)明實施例上述的方法的步驟。
本發(fā)明采用如上技術(shù)方案,定義了類似正則表達式形式的語法規(guī)則,采用樹結(jié)構(gòu)進行規(guī)則存儲,并定義可擴展的規(guī)則匹配邏輯,從而具有了類似正則表達式語法的靈活便捷、樹結(jié)構(gòu)匹配的高效率(尤其是匹配大量規(guī)則時)、可靈活進行功能擴展等優(yōu)點。用于自然語言處理相關(guān)任務(wù)中進行規(guī)則標注,具有很高的實用性,相比傳統(tǒng)的采用正則表達式的方式,功能更為強大、效率更高。
附圖說明
圖1所示為本發(fā)明實施例一的流程圖。
圖2所示為該實施例中姓名標注對應(yīng)的樹結(jié)構(gòu)示意圖。
圖3所示為該實施例中詳細地址標注對應(yīng)的樹結(jié)構(gòu)示意圖。
圖4所示為該實施例中姓名和詳細地址標注對應(yīng)的樹結(jié)構(gòu)示意圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門市巨龍信息科技有限公司,未經(jīng)廈門市巨龍信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110375075.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





