[發明專利]一種字符串匹配方法及字符串匹配系統有效
| 申請號: | 202010538767.5 | 申請日: | 2020-06-13 |
| 公開(公告)號: | CN111581459B | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 楊嘉佳;唐球;徐睿;劉金;張雷;吳云峰 | 申請(專利權)人: | 中國電子信息產業集團有限公司第六研究所 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 劉靜 |
| 地址: | 102209 北京市昌平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 字符串 匹配 方法 系統 | ||
本申請提供了一種字符串匹配方法及字符串匹配系統,先將待匹配文本分成多段待匹配字符串,同時為了避免遺漏每段待匹配字符串的邊界字符,從任意相鄰兩段待匹配字符串的相互鄰接一側各提取出至少一個邊界字符,得到多段待匹配邊界字符串,在進行字符串匹配時,從多段待匹配字符串和多段待匹配邊界字符串中,確定出與參照字符串匹配的目標字符串。進而,本申請在進行字符串匹配時,可以保證匹配過程中全部字符被匹配的完整性,有效提高字符串匹配效率,大大減少字符串匹配時間的消耗,有助于提高字符串的匹配性能。
技術領域
本申請涉及信息處理技術領域,尤其是涉及一種字符串匹配方法及字符串匹配系統。
背景技術
熱點話題的報道檢測技術,能夠發現和歸納來自于社交媒體的重要信息和內容,從網絡文本的報道中檢測出熱點話題,并實時跟蹤話題的演變過程。
在熱點話題的報道檢測技術中,字符串匹配是其中的關鍵技術。用戶每次檢測熱點話題都需要進行字符串匹配,當用戶以關鍵詞查找信息時,搜索引擎會在社交媒體的重要信息和內容中進行搜尋,如果找到與用戶要求內容相符的信息,便將查詢到的這些信息返回給用戶,以便用戶查看選擇。
隨著社交媒體的不斷發展,網絡文本的報道內容越來越多,這樣在檢測熱點話題時,需要匹配的字符串長度呈指數級增長,導致在字符串匹配過程中,所消耗的時間不斷增長,字符串的匹配效率不斷降低。
發明內容
有鑒于此,本申請的目的在于提供一種字符串匹配方法及字符串匹配系統,通過將待匹配文本分成多段待匹配字符串和多段待匹配邊界字符串,分別對多段待匹配字符串和多段待匹配邊界字符串進行參照字符串的匹配。在進行字符串匹配時,可以保證匹配過程中全部字符被匹配的完整性,有效提高字符串匹配效率,大大減少字符串匹配時間的消耗,有助于提高字符串的匹配性能。
第一方面,本申請提供了一種字符串匹配方法,所述字符串匹配方法包括:
獲取待匹配文本以及針對所述待匹配文本的參照字符串;
從所述待匹配文本中,確定出多段待匹配字符串,其中,所述待匹配字符串的字符長度大于或者等于所述參照字符串的字符長度;
分別從任意相鄰兩段待匹配字符串的相互鄰接一側各提取出至少一個邊界字符,確定多段待匹配邊界字符串,其中,每段待匹配邊界字符串包括從相鄰兩段待匹配字符串中提取出的多個邊界字符,且每段待匹配邊界字符串的字符長度大于或者等于所述參照字符串的字符長度;
從多段待匹配字符串和多段待匹配邊界字符串中,確定出與所述參照字符串匹配的目標字符串。
優選地,在所述從多段待匹配字符串和多段待匹配邊界字符串中,確定出與所述參照字符串匹配的目標字符串之后,所述字符串匹配方法還包括:
統計與所述參照字符串匹配的目標字符串的數量。
優選地,通過以下步驟確定多段待匹配字符串:
獲取所述參照字符串的字符長度;
基于所述參照字符串的字符長度,確定所述待匹配文本的劃分步長;
基于所述劃分步長,以所述待匹配文本的第一個字符為起點,對所述待匹配文本的字符串進行劃分,確定出多段待匹配字符串。
優選地,通過以下步驟確定待匹配邊界字符串:
確定所述待匹配邊界字符串的字符長度;
基于所述待匹配邊界字符串的字符長度,從相鄰兩段待匹配字符串中提取邊界字符;
確定提取出的邊界字符為待匹配邊界字符串。
優選地,通過以下步驟確定待匹配邊界字符串的字符長度:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子信息產業集團有限公司第六研究所,未經中國電子信息產業集團有限公司第六研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010538767.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種方便使用的電子元器件封裝結構
- 下一篇:一種阻燃母粒及其制備方法





